爬虫读书笔记01

第一章:什么是爬虫–随便看看就好

网络爬虫的分类

通用爬虫:有关的信息全部可以搜索出来的的爬虫

聚焦爬虫:有关某一类信息的获取,去掉无关信息的爬虫。

网络爬虫的别名

网络蜘蛛,网络蚂蚁,网络机器人

它们遵循的算法叫作爬虫算法。

网络爬虫最长用的场景

搜索引擎:百度搜索–百度爬虫–百度蜘蛛,360爬虫–360spider,搜狗爬虫叫sougouspider,必应爬虫-叫bingbot

搜索引擎的工作流程大致:爬虫爬取信息—存储信息—用户搜索信息–搜索引擎根据特定排序展示信息

为啥学爬虫
  1. 为了定制搜索引擎
  2. 数据处理拓展数据源
  3. 为了SEO优化
  4. 为了工作,和更高的薪水
爬虫的组成
  1. 爬虫节点:根据算法进行爬取数据和网络的文本处理
  2. 爬虫的控制节点:爬虫的cpu主要根据爬虫url分配线程。
  3. 资源库:存储爬虫爬取数据库的地方
网络爬虫的分类
  1. 通用那爬虫:(全爬虫)所有网络有海量数据
  2. 聚焦爬虫:(主题爬虫)通过某一主题进行进行爬取。
  3. 增量式爬虫:只爬取更新的过的网页,为未更新的不爬取。
  4. 深层式爬虫:爬取深层网页的爬虫(网页分为深层网页《需要提交表单数据才能获得的网页》和浅层网页《通过静态链接直接获取的网页》)
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值