学习爬虫需要的知识以及通用爬虫,聚焦爬虫

目录

1.爬虫的定义

2.关于爬虫,我们需要学习的有:

3.根据使用场景,爬虫的分类

(1)通用爬虫

(2)聚焦爬虫


1.爬虫的定义

爬虫是一种按照一定规则,自动抓取万维网信息的程序或者脚本

2.关于爬虫,我们需要学习的有:

(1)python的基础语法

(2)html页面的内容抓取

(3)html页面进行数据提取

(4)scrapy框架

(5)爬虫与反爬虫


3.根据使用场景,爬虫的分类

(1)通用爬虫

通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。

(2)聚焦爬虫

聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值