在抓取携程的时候遇到一个问题 刚开始因为公司是内网的原因scrapy无法访问网站 已启动就是超时重连后来决定用requests来对携程进行采集
刚开始用requests进行采集的时候一点没有问题采集回来的数据如下
返回的数据一切正常但是使用scrapy就出现了问题出现的问题和如下:
可以看到返回的是聚是类似html类似的东西 解析起来比较麻烦后来找到问题所在:
在请求头中加入这个在跑了一遍
好了返回的数据正常啦,还是对scrapy和requests了解的不够多啊,以后多翻翻源码看看
在抓取携程的时候遇到一个问题 刚开始因为公司是内网的原因scrapy无法访问网站 已启动就是超时重连后来决定用requests来对携程进行采集
刚开始用requests进行采集的时候一点没有问题采集回来的数据如下
返回的数据一切正常但是使用scrapy就出现了问题出现的问题和如下:
可以看到返回的是聚是类似html类似的东西 解析起来比较麻烦后来找到问题所在:
在请求头中加入这个在跑了一遍
好了返回的数据正常啦,还是对scrapy和requests了解的不够多啊,以后多翻翻源码看看