[学习]笔记]爬虫的学习(每天学习一点点)

学习笔记来源

https://www.imooc.com/video/10675

1.爬虫的介绍

爬虫

自动从互联网获取所感兴趣的数据的一段程序。

2.爬虫技术的价值

爬虫技术的价值

未来是信息为王的社会,要好好抓住这个末班车,听了这个价值,整个人都激动得不行。

3.爬虫技术的架构

这个网页可以将互联网相关网页的数据都爬取下来。
爬虫框架

  • 爬虫调度端:
    启动爬虫,停止爬虫,监视爬虫运行情况

  • URL管理器:
    对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器”

  • 网页下载器:
    将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”

  • 网页解析器:
    解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器”

4.爬虫技术的架构

https://www.imooc.com/video/10678

爬虫架构-运行流程

5.URL管理器功能

url管理器的目的防止循环抓取,重复抓取同样的url
URL管理器

6.URL管理器的实现方式

set可以剔除重复的内容,防止重复爬取;
is_crawled用来判断是否已经爬取
URL管理器的实现方式
大型公司使用缓存数据库,永久行保持使用关系型数据库,我们一般可以使用内存或者关系型数据库

x.明天继续学习

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

法迪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值