稳扎稳打学爬虫01—爬虫基本知识

1 什么是爬⾍

⽹络爬⾍也叫做⽹络机器⼈,可以代替⼈们⾃动的在互联⽹中进⾏数据信息的采集与整理。

2 爬⾍的作⽤

使⽤⽹络爬⾍对数据信息进⾏⾃动采集,⽐如应⽤于搜索引擎中对站点进⾏爬取收录,应⽤于数据分析与挖掘中对数据进⾏采集,应⽤于⾦融分析中对⾦融数据进⾏采集,除此之外,还可以将⽹络爬⾍应⽤于舆情监测与分析、⽬标客户数据的收集等各个领域。

3 爬⾍的分类

3.1 通⽤爬⾍

通⽤⽹络爬⾍ 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部 分。主要⽬的是将互联⽹上的⽹⻚下载到本地,形成⼀个互联⽹内容的镜像备份。

3.2 聚焦爬⾍

聚焦爬⾍,是"⾯向特定主题需求"的⼀种⽹络爬⾍程序

3.3 通用爬虫与聚焦爬虫区别

聚焦爬⾍在实施⽹⻚抓取时会对内容进⾏处理筛选,尽量保证只抓取与需求相关的⽹⻚信息。

4 爬⾍原理

(1) 模拟计算机对服务器发起Request请求.
(2) 接收服务端的Response内容并解析, 提取所需的消息.

最基本的⽹络连接原理

计算机发起⼀次Request请求,服务器端的Response响应(HTML文件), 即实现了⽹络连接。

5 爬⾍的流程

主要包括多⻚⾯和跨⻚⾯爬⾍流程.

5.1 多⻚⾯爬⾍流程

多个⻚⾯的⽹⻚结构相同或相似, 这种类型的⽹⻚爬⾍流程为:
(1) ⼿动翻⻚并观察各⽹⻚的URL构成特点, 构造出所有⻚⾯的URL存⼊列表中.
(2) 根据URL列表依次循环取出URL
(3) 定义爬⾍函数
(4) 循环调⽤爬⾍函数, 储存数据.
(5) 循环完毕, 结束爬⾍程序, 如下图的流程
在这里插入图片描述

5.2 跨⻚⾯爬⾍

流程为:

  1. 定义爬取函数爬取列表⻚的所有专题的URL
  2. 将专题URL存⼊列表中(种⼦URL)
  3. 定义爬取详细⻚数据函数
  4. 进⼊专题详细⻚⾯爬取详细⻚数据
  5. 储存数据, 循环完毕, 结束爬取程序
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值