python爬虫工程师 成长之路一 初识爬虫

本文介绍了网络爬虫的基本概念,包括爬虫的结构、类型和聚焦爬虫的工作原理。着重讲述了聚焦爬虫如何高效地获取特定主题信息,并提及了爬虫在搜索引擎、数据获取和用户行为分析中的应用。
摘要由CSDN通过智能技术生成

爬虫简介

  • 爬虫,就是网络爬虫,也称为网页蜘蛛、网络机器人、网络蚂蚁等,可以根据我们制定的规则自动的浏览互联网中的信息。
  • 搜索引擎,就是爬虫的应用者,百度搜索引擎叫baiduspider,360的叫360spider…

为什么要学习爬虫

  • 大数据时代,要进行数据分析,就需要数据源,而爬虫刚刚可以获取很多的数据源
  • 熟练掌握爬虫技术十分有利于就业

爬虫的结构

爬虫主要由控制节点、爬虫节点、资源库组成。

  • 控制节点:也称为爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行爬虫
  • 爬虫节点:爬虫节点根据对应的算法,对网页进行爬取,爬取完毕后,将对应的结果存储到对应的资源库中
  • 资源库:爬虫节点存储爬取结果的地方

控制节点和爬虫节点的关系

爬虫的类型

按照爬虫实现的技术和结构可以分为通用爬虫、聚焦爬虫、增量式爬虫、深层爬虫等类型;在实际运用中,常是这几类的结合体

名称 特点
通用爬虫 又称全网爬虫;通用爬虫的目标资源全在互联网中,通用爬虫爬取的目标数据巨大,范围广泛&
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值