spider
何惜戈
这个作者很懒,什么都没留下…
展开
-
Spider——urllib2添加headers和设置代理
为了伪装成一个正常的浏览器去爬取数据,我们就需要在程序中对我们的请求进行一些必要的包装。比如设置headers模仿一个正常浏览器访问,设置代理,防止ip屏蔽。设置headers构造headers加入到请求中import urllib2url = "http://www.baidu.cn"header = {"User-Agent" : "Mozilla/5.0 (co...原创 2018-08-20 11:24:51 · 6013 阅读 · 0 评论 -
Spider——requests模块(HTTP for Humans)
虽然 urllib,与 urllib2已经能够满足一般的爬虫需求,但是对于人类来说仍然不是太友好。requests 模块继承了urllib2的所有特性,并支持HTTP连接保持和连接池,支持使用cookie保持会话,文件上传,自动确定响应内容编码等。 requests 中文文档: http://docs.python-requests.org/zh_CN/latest/index.htm...原创 2018-08-20 15:37:36 · 254 阅读 · 0 评论 -
Spider——关于数据转码问题
在爬虫的过程中,编码问题常常会遇到,数据在你面前总是隔了层纱,要么抛出个ascii错误,要么就是保存下来和打印出来的不一样拉勾小案例举个例子来探讨一下。 将拉勾网的城市分类信息保存到本地。 地址:拉勾城市信息 # _*_ coding:utf-8 _*_import urllib2import jsonpathimport jsonurl = "http:/...原创 2018-08-24 15:52:36 · 417 阅读 · 0 评论 -
Spider——scrapy运行报错
错误信息::0: UserWarning: You do not have a working installation of the service_identity module: ‘cannot import name opentype’. Please install it from https://pypi.python.org/pypi/service_identity and ...原创 2019-02-26 10:14:39 · 627 阅读 · 0 评论