稳扎稳打学爬虫01—爬虫基本知识

最新推荐文章于 2024-09-16 07:18:09 发布

云晓-

最新推荐文章于 2024-09-16 07:18:09 发布

阅读量480

点赞数

分类专栏：爬虫文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/one_bird_/article/details/122152511

版权

爬虫专栏收录该内容

15 篇文章 5 订阅

订阅专栏

1 什么是爬⾍

⽹络爬⾍也叫做⽹络机器⼈，可以代替⼈们⾃动的在互联⽹中进⾏数据信息的采集与整理。

2 爬⾍的作⽤

使⽤⽹络爬⾍对数据信息进⾏⾃动采集，⽐如应⽤于搜索引擎中对站点进⾏爬取收录，应⽤于数据分析与挖掘中对数据进⾏采集，应⽤于⾦融分析中对⾦融数据进⾏采集，除此之外，还可以将⽹络爬⾍应⽤于舆情监测与分析、⽬标客户数据的收集等各个领域。

3 爬⾍的分类

3.1 通⽤爬⾍

通⽤⽹络爬⾍是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要⽬的是将互联⽹上的⽹⻚下载到本地，形成⼀个互联⽹内容的镜像备份。

3.2 聚焦爬⾍

聚焦爬⾍，是"⾯向特定主题需求"的⼀种⽹络爬⾍程序

3.3 通用爬虫与聚焦爬虫区别

聚焦爬⾍在实施⽹⻚抓取时会对内容进⾏处理筛选，尽量保证只抓取与需求相关的⽹⻚信息。

4 爬⾍原理

(1) 模拟计算机对服务器发起Request请求.
(2) 接收服务端的Response内容并解析, 提取所需的消息.

最基本的⽹络连接原理

计算机发起⼀次Request请求，服务器端的Response响应（HTML文件）, 即实现了⽹络连接。

5 爬⾍的流程

主要包括多⻚⾯和跨⻚⾯爬⾍流程.

5.1 多⻚⾯爬⾍流程

多个⻚⾯的⽹⻚结构相同或相似, 这种类型的⽹⻚爬⾍流程为:
(1) ⼿动翻⻚并观察各⽹⻚的URL构成特点, 构造出所有⻚⾯的URL存⼊列表中.
(2) 根据URL列表依次循环取出URL
(3) 定义爬⾍函数
(4) 循环调⽤爬⾍函数, 储存数据.
(5) 循环完毕, 结束爬⾍程序, 如下图的流程
在这里插入图片描述

5.2 跨⻚⾯爬⾍

流程为：

定义爬取函数爬取列表⻚的所有专题的URL
将专题URL存⼊列表中(种⼦URL)
定义爬取详细⻚数据函数
进⼊专题详细⻚⾯爬取详细⻚数据
储存数据, 循环完毕, 结束爬取程序

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。