自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 问答 (1)
  • 收藏
  • 关注

原创 代理池维护

最近在看崔庆才的爬虫教程,按照教程搭载了一个代理池,进行如下总结:崔庆才代理池博客https://cuiqingcai.com/7048.html代理池的作用解决短时间内频繁爬取同一网站导致IP封锁的情况。具体工作机制:从各大代理网站抓取免费IP —— 去重后以有序集合的方式保存到Redis中 —— 定时检测IP有效性、根据自己设定的分数规则进行优先级更改并删除分数为零(无效)的IP ——...

2019-08-09 11:29:38 555

原创 requests和re正则基础

本片文章主要记录最近所学基础内容,日后会有补充。requestsrequests是一个第三方模块,可以用pip install requests命令行安装requests的各种请求import requestsr=requests.get('http://httpbin.org/get')r=requests.post('http://httpbin.org/post')r=re...

2019-07-20 08:46:51 1262

原创 猫眼,豆瓣电影的requests和re爬虫

记录一下自己第一次的爬虫,爬豆瓣的正则表达式写的不好,如果以后再看的时候想办法改改猫眼电影定义一个响应网页的函数def response_one_page(url): #传入的参数是网址 header={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gec...

2019-07-18 17:41:53 518

原创 爬虫入门:urllib库

print(dir(re))

2019-07-16 21:05:13 352

原创 Python学习笔记

python中字典的key都可以是啥

2019-05-10 22:47:56 264

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除