python 爬虫简介

最新推荐文章于 2024-07-16 09:42:31 发布

MZP_man

最新推荐文章于 2024-07-16 09:42:31 发布

阅读量265

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/MZP_man/article/details/100709689

版权

python 专栏收录该内容

107 篇文章 0 订阅

订阅专栏

什么是爬虫：
是一种按照一定的规则，自动地抓取互联网信息的程序，所谓网页抓取，就是把 URL 地址中指定的网络资源从网络流中读取出来，保存到本地。在Python 中有很多库可以用来抓取网页。

分类：
1、通用爬虫（General Purpose Web Crawler）：
捜索引擎抓取系统（Baidu、Google、Yahoo 等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

2、聚焦爬虫（Focused Web Crawler）：
是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

3、增量式爬虫（Incremental Web Crawler）：
是指在具有一定量规模的网络页面集合的基础上，采用更新数据的方式选取已有集合中的过时网页进行抓取，以保证所抓取到的数据与真实网络数据足够接近。进行增量式抓取的前提是，系统已经抓取了足够数量的网络页面，并具有这些页面被抓取的时间信息。

4、深层爬虫（Deep Web Crawler）：
针对起始 url 地址进行数据采集，在响应数据中进行数据筛选得到需要进行数据采集的下一波 url 地址，并将 url 地址添加到数据采集队列中进行二次爬取…以此类推，一致到所有页面的数据全部采集完成即可完成深度数据采集，这里的深度指的就是 url 地址的检索深度。

爬虫步骤：
网页抓取，数据提取，数据存储。

HTTP协议
HTTP，HyperText Transfer Protocol，是互联网上应用最为广泛的一种网络协议。是一个基于TCP/IP通信协议来传递数据，一个属于应用层的协议，浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后，向客户端发送响应信息。

HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）HTTP的安全版，在HTTP下加入SSL层。

SSL（Secure Sockets Layer 安全套接层）主要用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全。

HTTP 的端口号为 80， HTTPS 的端口号为 443 。