![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 64
一只鸭鸭ya
这个作者很懒,什么都没留下…
展开
-
对于爬虫的一些思考
最先应该思考的问题稳定性除重爬虫的稳定性由于项目并不会投入太多的时间,所以稳定性能是最终的。稳定性的可以从以下的维度进行考虑:数据量不多的时候采用单线程。异常处理。重试。详细的日志。个人觉得数据量少就是在40小时内遍历全部并且可以爬完的就是小数据量。异常处理主要就是放在请求网站时、入库。而重试主要是用traceback这个库,它的作用是捕捉到特定异常、设定重试间隔的时长、间隔时常的增长策略。如果真的想不到要在什么地方写重试就思考:在断网的情况下会出现什么情况,重试多次以后会原创 2020-08-23 14:14:38 · 304 阅读 · 0 评论 -
爬虫吐槽
1、不要跟老娘说什么bs4什么xpath什么css选择器,傻逼吗?json不香吗?安利直接请求json文件。2、连限频都不会求你不要秀了,怕到人家服务器500只能说你损,403都是活该,还在用sleep?scrapy是不是不好限频?安利用ratelimite。3、错误也不会捕捉也不能重试?安利backoff。4、还可以写成插件,解藕又方便。安利pluginbase。...原创 2020-03-23 23:49:50 · 201 阅读 · 3 评论 -
爬取动态网站表格内容
一、简介(1)选用requests(2)数据来源以执法惩戒网站为例网址:http://119.6.84.165:8085/sfgk/webapp/area/cdsfgk/zxxx/zxcj.jsp目录一、简介二、考察网站三、开始爬虫四、爬取的数据:五、数据的过滤和保存二、考察网站按f12,f5刷新,点击network如图: 点击每...原创 2018-04-30 13:06:59 · 4764 阅读 · 0 评论 -
爬取后的文字解析工作
2019年翻新爬完表格的内容,下一步把无关的标签进行过滤。用beautifulsoup去处理,导包出现HTMLParseError的问题。目录一、对于cannot import name 'HTMLParseError'的处理二、新建bs对象并测试:三、开始处理四、放到excel里面一、对于cannot import name 'HTMLParseError'的处理...原创 2018-05-01 13:06:14 · 494 阅读 · 0 评论 -
ModuleNotFoundError: No module named 'markupbase处理方法
考完英语六级的我回来ModuleNotFoundError: No module named 'markupbase解决方法1:在cmd中输入pip install micropython-_markupbase看见了都习以为常。解决方法2:在官网下载(点我啊)压缩包解压两次后,得到。在你安装Python的路径里面找到site-packages,如:你安装的路径...原创 2018-06-28 16:57:54 · 10034 阅读 · 8 评论 -
scrapy爬取大众点评并解析??
目录爬取大众点评需求第一关:大众点评爬取遇到403第二关:scrapy的信息传递第三关:DNS域名解析错误第四关:报错'ItemMeta' object does not support item assignment.第五关:中间件过滤信息问题:Filtered duplicate request或者是Filtered offsite request to 域名...原创 2019-03-23 22:37:51 · 4134 阅读 · 4 评论 -
urllib的build_opener
2019年翻新:大家不要看opener啦,看requests吧opener有点过时了。目录一、openers和handlers的关系二、对build_opener的源码分析1、build_opener 的作用2、使用默认的handlers应该怎么写?一、openers和handlers的关系(1)openers:opener可以想象成一瓶水的瓶盖,但是真正处理...原创 2018-04-28 10:37:44 · 13675 阅读 · 1 评论