![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫spider
爬虫相关
LessenPaul
Talk is cheap,show me the code
展开
-
聊聊TCP恋爱史--三次牵手四次分手
TCP概述 TCP在OSI五层协议中处于运输层,运输层主要为相互通信的应用进程提供逻辑通信,它可以为它上面的应用层提供通行服务,属于面向通信部分的最高层。我们知道在IP协议中能够将源主机发出的分组按照首部中的目的地址通过路由分组发送到目的主机。但是这个分组还停留在主机的网络层,并没有交付到主机的进程中。因此通信的端点并非是主机而是主机中的进程,因此主机的通信实际上是主机中进程的通信。 根据应用程序的不同的需求,运输层主要有两种不同的协议,一种是无连接的UDP协议;另一种就是面向连接的TCP协..原创 2020-06-21 14:24:07 · 501 阅读 · 0 评论 -
scrapy之Spider组件以及Item对象源码分析
1、Spider组件 Spider类定义了抓取一个或者多个网页的动作,以及如何提取结构化的数据。对Spider来说整个流程如同下面的循环:(1)从第一个URL中生成第一个初始化的Request,并设置回调函数,当这些Requst下载生成response后,这些回调函数将被调用。(2)在回调函数内解析返回的response并生返回Item对象或者Request对象,或者是一个包含二者的可迭代对象。返回的Request会通过scrapy处理,并交由Downloader下载,并调用设置的回调函数(3)在原创 2020-06-08 12:14:36 · 424 阅读 · 0 评论 -
scrapy之架构简介及数据流
文章目录1、scrapy简介2、scrapy架构概览3、组件(components)4、数据流(Data Flow)5、白话文1、scrapy简介 scrapy是一个基于Twisted异步框架的一个高效爬取框架,它是一个纯Python编写的框架,它提供了几个重要的组件,你只需要简单地步骤就可以实现一个网站的爬取。除此之外scrapy还是一个扩展性非常强的框架,你可以基于这些组件取定制适合你业务的功能。2、scrapy架构概览 我们来看看官方文档上给出的架构,先上图,再解释3、组件(compo原创 2020-06-06 22:53:29 · 732 阅读 · 0 评论 -
HTTP协议原理详解
文章目录1、HTTP协议简介1、URL简介3、HTTP请求过程4、HTTP协议的特点4.1 无状态(stateless)4.2 无连接5、http报文结构5.1 开始行5.1.1 请求行5.1.1.1 方法5.1.1.2 URL5.1.1.3 版本5.1.2 响应行5.2 首部行5.2.1 请求行5.2.1 响应行5.3 实体主体5.3.1 请求体5.3.2 响应体6、cookies & session1、HTTP协议简介 HTTP(HyperText Transfer Protocol)协议原创 2020-06-02 13:27:06 · 920 阅读 · 0 评论 -
爬虫中的那些反爬虫措施以及解决方法
在爬虫中遇到反爬虫真的是家常便饭了,这篇博客我想结合我自己的经验将遇到过的那些问题给出来,并给出一些解决方案。1、UserAgent UserAgent的设置能使服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本等信息。对于一些网站来说,它会检查我们发送的请求中所携带的UserAgent字段,如果非浏览器,就会被识别为爬虫,一旦被识别出来, 我们的爬虫也就无法正常爬取数据了。解决方法 收集常见的useragent作为配置文件,每次访问的时候取出一个作为头部发送请求,需原创 2020-06-01 22:55:13 · 3135 阅读 · 2 评论 -
XPath相关用法总结
xpath是什么 xpath是一种xml路径语言,它提供了一种在xml文档中搜索信息的语法和方式,由于它也可以用来对HTML文档进行搜索,因此它在爬虫中用来作为信息抽取是一种不错的选择,而且它的速度还快。如何使用 在Python中,使用XPath可以先安装LXML库。可以使用 pip install lxml 快速安装,安装好就可以使用了。使用方法如下:# 导入etreefrom lxml import etree# 将网页source code转换为被XPath识别和选择的..原创 2020-05-31 12:38:29 · 1132 阅读 · 0 评论