爬虫
文章平均质量分 69
wddzz
这个作者很懒,什么都没留下…
展开
-
selenium用法回顾
一、Selenium+PhantomJs最新版本的Selenium已不再支持PhantomJs,详情参考官网from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesdef getSource(url): # 设置请求头...原创 2018-04-22 22:34:05 · 305 阅读 · 0 评论 -
XHR
ajax是asynchronous javascript and XML的简写,中文翻译是异步的javascript和XML,这一技术能够向服务器请求额外的数据而无须卸载页面,虽然名字中包含XML,但ajax通信与数据格式无关. ajax包括以下几步骤:1、创建AJAX对象;2、发出HTTP请求;3、接收服务器传回的数据;4、更新网页数据 概括起来就是,...转载 2018-05-17 22:30:30 · 2859 阅读 · 0 评论 -
Python爬虫:Fiddler的使用和浏览器伪装技术
Fiddler是一款常见的抓包分析软件,利用Fiddler可以详细地对HTTP请求进行分析,并模拟HTTP请求。 在爬虫中利用Fiddler,可以帮助我们更快地分析出一些动态网页加载的请求实现方式; 在有了Fiddler,经过设置之后,本地应用和服务器之间的Request和Response都将经过Fiddler转发,Fiddler以代理服务器的方式存在。官网下载地址:https:...原创 2018-04-21 16:12:22 · 2031 阅读 · 1 评论 -
Python爬虫:Cookie的使用
1、HTTP协议是一个无状态协议,通过Cookie保存会话信息,从而判断目前的会话状态,比如可以判断是否已经登录。当我们用urlopen来请求一个URL时,都是使用的默认opener;当需要用到Cookie时,要创建一个更一般的opener;2、cookielib模块主要是提供可存储的Cookie对象,以便于与urllib2模块配合使用来访问Internet资源该模块主要的对象有CookieJar...原创 2018-04-20 23:58:41 · 236 阅读 · 0 评论 -
Lxml库及Xpath语法详解
一、Xpath术语1、节点:七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点2、节点关系:父、子、同胞、先辈、后代3、节点选取表达式描述nodename选取此节点的所有子节点/从根节点选取//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点..选取当前节点的父节点@选取属性实例在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:路径表达式...转载 2018-04-20 18:43:13 · 9307 阅读 · 0 评论 -
爬虫VS反爬虫
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家?重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好,通常都...转载 2018-04-20 17:19:35 · 483 阅读 · 1 评论 -
Python网络爬虫:User Agent和代理IP
一、在urllib2中的使用:# 一:# 异常处理,及设置请求次数# 可添加time时间间隔import urllib2def download(url,num_retries=2): print("Downloading:",url) try: html = urllib2.urlopen(url).read() except urllib2.URLError as e: ...原创 2018-04-20 16:07:08 · 260 阅读 · 0 评论 -
Item Loader使用详解
Items 提供保存抓取数据的 容器 , 而 Item Loaders提供的是 填充 容器的机制 ItemLoader 类位于 scrapy.loader ,它可以接收一个 Item 实例来指定要加载的 Item, 然后指定 response 或者 selector 来确定要解析的内容,最后提供了 add_css()、 add_xpat...转载 2018-04-24 17:59:04 · 3043 阅读 · 0 评论 -
CrawlSpider和XMLFeedSpider
一、CrawlSpider CrawlSpider除了从Spider继承过来的属性外,还提供了新的rules属性,提供跟进链接功能, rules属性是一个包含一个或多个Rule对象的集合, 每个Rule对爬取网站的动作定义了特定的规则, 对于多个Rule匹配相同的链接,根据它们在rules属性中被定义的顺序,第一个被使用。 可以复写parse_start_url(re...原创 2018-04-24 12:57:59 · 294 阅读 · 0 评论 -
scrapy第一次请求方式的重写
当起始请求需要设置header,cookie,data时,则要对起始请求做处理,所以需要重写第一次请求处理函数start_request(self)1 设置header与cookie 如果在settings.py文件中设置请求头,则所有的蜘蛛文件都使用该请求头,然而不同的蜘蛛文件需要不同的请求头,因此需要给每个蜘蛛文件的请求设置独立的请求头. 设置独立的header和cookie方法为...转载 2018-04-24 10:45:24 · 4605 阅读 · 0 评论 -
Windows下MongoDB安装及环境配置
1、下载MongoDB安装包: 官网地址:https://www.mongodb.com/download-center?jmp=nav#community 一路点击next安装,可以自定义安装路径,例如安装在H:\mongo2、安装完成后,打开安装路径,在bin的同级文件夹建立一个data文件夹,进入data文件夹,①建立一个db文件夹(路径为H:\m...原创 2018-04-30 12:14:33 · 157 阅读 · 0 评论 -
requests中headers设置的小坑
headers = { "Host": "www.tmkoo.com", "Connection": "keep-alive", "Content-Length": "50", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp原创 2018-08-17 15:42:40 · 7106 阅读 · 0 评论