爬虫的简单介绍

最新推荐文章于 2021-04-24 21:43:29 发布

Totoha

最新推荐文章于 2021-04-24 21:43:29 发布

阅读量629

点赞数

本文链接：https://blog.csdn.net/Totoha/article/details/108388642

版权

爬虫的介绍

1. 爬虫的定义

⽹络爬⾍（⼜被称为⽹⻚蜘蛛，⽹络机器⼈）就是模拟客户端发送⽹络请求，接收请求响应，⼀种按照⼀定的规则，⾃动地抓取互联⽹信息的程序。只要是浏览器能做的事情，原则上，爬⾍都能够做

2.爬虫的用途

12306抢票
网站上的投票
短信轰炸

3.爬虫着么抓取网页上的数据

⽹⻚三⼤特征：
1 ⽹⻚都有⾃⼰唯⼀的URL
2 ⽹⻚都是HTML来描述⻚⾯信息
3 ⽹⻚都使⽤HTTP/HTTPS协议来传输HTML数据
爬⾍的设计思路：
1 确定需要爬取的URL地址
2 通过HTTP/HTTPS协议获取对应的HTML⻚⾯
3 提取HTML⻚⾯有⽤的数据

4.为什么要选择Python做爬虫

代码简介，开发效率⾼，⽀持的模块多，HTTP请求和HTML解的模块丰富。调⽤其他接⼝也⾮常⽅便。

通用爬虫和聚焦爬虫

根据使⽤场景，⽹络爬⾍可分为通⽤爬⾍和聚焦爬⾍两种.

通⽤⽹络爬⾍是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要⽬的是将互联⽹上的⽹⻚下载到本地，形成⼀个互⽹内容的镜像备份。

1.通⽤搜索引擎（Search Engine）⼯作原理

通⽤⽹络爬⾍从互联⽹中搜集⽹⻚，采集信息，这些⽹⻚信息⽤于为搜索引擎建⽴索引从⽽提供⽀持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

第一步：抓取网页
搜索引擎⽹络爬⾍的基本⼯作流程如下：
1.⾸先选取⼀部分的种⼦URL，将这些URL放⼊待抓取URL队列；
2.取出待抓取URL，解析DNS得到主机的IP，并将URL对应的⽹⻚下载下来，存储进已下载⽹⻚库中，并且将这些URL放进已抓取URL队列。
3.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放⼊待抓取URL队列，从⽽进⼊下⼀个循环…

搜索引擎如何获取⼀个新⽹站的URL：

新⽹站向搜索引擎主动提交⽹址：（如百度http://zhanzhang.baidu.com/linksubmit/url）
在其他⽹站上设置新⽹站外链（尽可能处于搜索引擎爬⾍爬取范围）
搜索引擎和DNS解析服务商(如DNSPod等）合作，新⽹站域名将被迅速抓取。

Robots协议
Robots协议（也叫爬⾍协议、机器⼈协议等），全称是“⽹络爬⾍排除标准”（Robots Exclusion Protocol），⽹站通过Robots协议告诉搜索引擎哪些
⻚⾯可以抓取，哪些⻚⾯不能抓取，例如：
淘宝⽹：https://www.taobao.com/robots.txt
腾讯⽹： http://www.qq.com/robots.txt

第二步：数据储存
搜索引擎通过爬⾍爬取到的⽹⻚，将数据存⼊原始⻚⾯数据库。其中的⻚⾯数据与⽤户浏览器得到的HTML是完全⼀样的。
搜索引擎蜘蛛在抓取⻚⾯时，也做⼀定的重复内容检测，⼀旦遇到访问权重很低的⽹站上有⼤量抄袭、采集或者复制的内容，很可能就不再爬⾏。

第三步：预处理
搜索引擎将爬⾍抓取回来的⻚⾯，进⾏各种步骤的预处理。
提取⽂字
中⽂分词
消除噪⾳（⽐如版权声明⽂字、导航条、⼴告等……）
索引处理
链接关系计算
特殊⽂件处理

第四步：提供检索服务，⽹站排名
搜索引擎在对信息进⾏组织和处理后，为⽤户提供关键字检索服务，将⽤户检
索相关的信息展示给⽤户。
同时会根据⻚⾯的PageRank值（链接的访问量排名）来进⾏⽹站排名，这样
Rank值⾼的⽹站在搜索结果中会排名较前，当然也可以直接使⽤ Money 购买
搜索引擎⽹站排名，简单粗暴。

聚焦爬虫

聚焦爬⾍，是"⾯向特定主题需求"的⼀种⽹络爬⾍程序，它与通⽤搜索引擎爬⾍的区别在于：聚焦爬⾍在实施⽹⻚抓取时会对内容进⾏处理筛选，尽量保证只抓取与需求相关的⽹⻚信息。

Totoha

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫的简单介绍

爬虫的定义⽹络爬⾍（⼜被称为⽹⻚蜘蛛，⽹络机器⼈）就是模拟客户端发送⽹络请求，接收请求响应，⼀种按照⼀定的规则，⾃动地抓取互联⽹信息的程序。只要是浏览器能做的事情，原则上，爬⾍都能够做爬虫的用途12306抢票网站上的投票短信轰炸爬虫着么抓取网页上的数据⽹⻚三⼤特征：1 ⽹⻚都有⾃⼰唯⼀的URL2 ⽹⻚都是HTML来描述⻚⾯信息3 ⽹⻚都使⽤HTTP/HTTPS协议来传输HTML数据爬⾍的设计思路：1 确定需要爬取的URL地址2 通过HTTP/HTTPS协议获取对应的HTML⻚⾯3
复制链接

扫一扫