爬虫
紫色的梅花
这个作者很懒,什么都没留下…
展开
-
urllib爬虫封装(可设置代理,记录日志)方法
urllib爬虫封装(具体其他功能根据需求完善)1.支持设置HTTP Request Headers ,能设置UA。2.支持代理服务器的设置。3.它支持timeout超时机制。4.它支持网页 的编码指定。5.它支持服务器返回的错误处理 如果>400 and <500 直接记录日志,如果错误码是500-600 则重新发起请求。# -*- coding: ...原创 2019-09-18 07:17:56 · 11263 阅读 · 0 评论 -
scrapy创建一个项目的流程(简洁)
1. scrapy的安装pip install scrapy如果出错,安装相关的依赖包。2.命令帮助scrapy3.创建一个scrapy项目scrapy startproject tencentSpider创建的结果如下:创建的项目tencentSpider的目录结构:4.生成一个具体的爬虫文件scrapy genspider tencent hr.te...原创 2019-09-18 23:36:24 · 1127 阅读 · 0 评论