爬虫
sakura_trick
这个作者很懒,什么都没留下…
展开
-
python爬虫 requests异常:requests.exceptions.ConnectionError: HTTPSConnectionPool Max retries exceeded
使用 requests抓取网页时会碰到如下异常:requests.exceptions.ConnectionError: HTTPSConnectionPool Max retries exceeded原因1.http的连接数超过最大限制,默认的情况下连接是Keep-alive的,所以这就导致了服务器保持了太多连接而不能再新建连接。2.ip被封3.请求过快解决1.在header中不使...原创 2018-11-20 13:58:59 · 7272 阅读 · 0 评论 -
requests抓到的网页乱码问题
response.apparent_encoding获取网页当前的编码格式response.encoding = ‘’在引号中输入正确的编码格式,对抓取的网页进行重新编码原创 2018-11-29 10:30:24 · 202 阅读 · 0 评论 -
Scrapy入门级简单整理
安装scrapypip install scrapy安装完成 scrapy 提供一整套 scrapy 命令若pip安装失败,可到http://www.lfd.uci.edu/~gohlke/pythonlibs/网站找对应的twisted和scrapy的whl包进行下载通过下面命令进行安装,先装twisted,再装scrapypip install xxx.whl使用 s...原创 2018-12-19 14:48:34 · 149 阅读 · 0 评论