- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 scrapy爬虫出现‘Forbidden by robots.txt’错误
使用scrapy爬取知乎信息的时候,运行爬虫出错,错误信息是‘Forbidden by robots.txt’。然后在settings里面加入了cookie和headers信息还是不行。但是直接用urllib.request请求发现页面都能直接请求成功。 于是上网查了一下robot.txt是什么才知道有这么回事,看一下scrapy抓包时的输出可以发现,在请求设定的url之前,它会先向服务器根
2017-10-30 22:20:14 2544
原创 利用代理IP爬取网页的小心得
利用爬虫爬取网页时,有时候会因为请求次数过多而被封IP,这时候就需要多个代理IP不断更换以保持爬虫继续工作。昨天遇到这个问题于是去查代理IP使用的问题,找到了这个:https://github.com/Germey/ProxyPool网上大佬推荐的,但是我完全看不懂而且我电脑也不知道为什么运行报错,于是自己写了一个无比无比简陋的。。萌新可以有需要看一看。import requests from
2017-10-16 21:01:26 2097
原创 python3.x导入pyquery报错问题
本人Python萌新,属于什么都不懂的那种。今天使用pip install pyquery安装完pyquery三方库之后发现无论是用命令行还是用pycharm运行from pyquery import PyQuery / import pyquery都会报错,如下: ImportError: DLL load failed: 找不到指定的程序。 上网查了捣鼓了俩小时,但是很多大佬们的答
2017-10-01 20:54:22 2697
C++人脸检测与识别
2018-02-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人