10_爬虫原理介绍

在这里插入图片描述


博文配套视频课程:24小时实现从零到AI人工智能


什么是爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引

数据三种获取方式

在移动互联网和大数据时代,会产生海量的数据,数据是沉默的宝藏。我们可以通过数据分析挖掘得出一些有价值的结论,而这些结论又可以提高用户的体验,提高公司运营效率。

  1. 自有数据像BAT、Google、Facebook、银行、运营商等
  2. 像大厂或者产业链上游购买数据
  3. 采用爬虫获取互联网上的数据 (注意:随着用户对自己隐私保护和法律健全此方式未来风险会越来越大)

爬虫架构体系

  1. 爬虫客户端来启动爬虫、停止爬虫、监控爬虫的调度情况
  2. URL管理器:来对将要管理的URL,和已经下载过的URL进行管理
  3. 网页下载器:会将URL指定的网页下载下来,并且存储为字符串
  4. 存储的字符串通过网页解析器进行解析,把有价值的数据解析出来,网页还有其它的URL可以补充到URL管理器中

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值