【Python爬虫实战】scrapy爬取某资讯网站并存入MySQL
本次爬取目标网站为 https://www.nanjixiong.com/forum-2-1.html
任务是爬取列表页+详情页数据
在爬取过程中发现几点问题:
每次运行scrapy爬取内容的顺序都不一致。
原因:百度原因是scrapy是一个异步处理框架,也就是说Scrapy发送请求之后,不会等待这个请求的响应(也就是不会阻塞),而是可以同时发送其他请求或者做别的事情。而我们知道服务器对于请求的响应是由很多方面的因素影响的,如猫之良品所说的网络速度、解析速度、资源抢占等等,其响应的顺序是难以预测的。
原创
2021-01-18 15:35:36 ·
593 阅读 ·
1 评论