一级目录
二级目录
爬虫的分类
爬虫:
模拟浏览器,发送网络请求,接受请求响应。网页蜘蛛。
浏览器中右键检查,找到network,此时在网页中操作,会在network中出现刚刚操作的所有网络请求。
通用爬虫:搜索引擎抓取系统,如百度谷歌等,
聚焦爬虫:
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:
(1)对抓取目标的描述或定义;
(2)对网页或数据的分析与过滤;
(3)对URL的搜索策略。
聚焦爬虫的流程:
url list---->响应内容--------->提取数据---------->入库
相应内容—>提取url------>url list
url:每个网站的网址链接,把一个网站的所有链接都放到一个列表中,才能用遍历的方式一个一个区请求。(右键检查,network,刷新页面,我们要请求的东西在response里,拿到数据后提取数据,然后放到数据库中)
robots协议
比如在百度搜索中不能搜到淘宝网中某一个具体商品的详细信息,
在网址栏输入www.taobao.com/robots.txt
User-agent :使用的搜索引擎
disallow :允许爬取的内容 / 表示根目录以下都不允许爬取
(所谓的君子协议)
HTTP和HTTPS的概念
HTTP:
------超文本传输协议
------默认端口号:80
HTTPS:
—HTTP+SSL及带有安全套接字层的超文本传输协议
默认端口号:443
https比http更安全,但性能更低(要进行加密解密的过程)。
浏览器请求网站的流程
用户在浏览器输入网址访问网站时,浏览器把域名传给了服务器,
服务器再把网站的ip地址传给浏览器,我们接收到后,就可以通过这个ip地址去请求网站页面,而这个页面会携带html、css、js、以及静态图片等,返回到你的浏览器。
浏览器请求的头部信息
右键检查,看响应信息,找到network,再访问一次网站,点第一个,爬虫需要的是Headers头部信息。
response是响应
request是请求
我们发送一个请求,服务器返回一个响应。