- 博客(5)
- 问答 (1)
- 收藏
- 关注
原创 代理池维护
最近在看崔庆才的爬虫教程,按照教程搭载了一个代理池,进行如下总结:崔庆才代理池博客https://cuiqingcai.com/7048.html代理池的作用解决短时间内频繁爬取同一网站导致IP封锁的情况。具体工作机制:从各大代理网站抓取免费IP —— 去重后以有序集合的方式保存到Redis中 —— 定时检测IP有效性、根据自己设定的分数规则进行优先级更改并删除分数为零(无效)的IP ——...
2019-08-09 11:29:38 555
原创 requests和re正则基础
本片文章主要记录最近所学基础内容,日后会有补充。requestsrequests是一个第三方模块,可以用pip install requests命令行安装requests的各种请求import requestsr=requests.get('http://httpbin.org/get')r=requests.post('http://httpbin.org/post')r=re...
2019-07-20 08:46:51 1262
原创 猫眼,豆瓣电影的requests和re爬虫
记录一下自己第一次的爬虫,爬豆瓣的正则表达式写的不好,如果以后再看的时候想办法改改猫眼电影定义一个响应网页的函数def response_one_page(url): #传入的参数是网址 header={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gec...
2019-07-18 17:41:53 518
空空如也
Python中使用tesserocr时如何确定适合的阀值
2019-07-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人