10_爬虫原理介绍

最新推荐文章于 2023-06-28 01:20:34 发布

lsqzedu

最新推荐文章于 2023-06-28 01:20:34 发布

阅读量264

点赞数

分类专栏： Python面向对象与模块化文章标签：爬虫 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-NC-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lsqzedu/article/details/91038057

版权

Python面向对象与模块化专栏收录该内容

20 篇文章 7 订阅

订阅专栏

在这里插入图片描述

文章目录

什么是爬虫
数据三种获取方式
爬虫架构体系

博文配套视频课程：24小时实现从零到AI人工智能

什么是爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引

数据三种获取方式

在移动互联网和大数据时代，会产生海量的数据，数据是沉默的宝藏。我们可以通过数据分析挖掘得出一些有价值的结论，而这些结论又可以提高用户的体验，提高公司运营效率。

自有数据像BAT、Google、Facebook、银行、运营商等
像大厂或者产业链上游购买数据
采用爬虫获取互联网上的数据 (注意：随着用户对自己隐私保护和法律健全此方式未来风险会越来越大)

爬虫架构体系

爬虫客户端来启动爬虫、停止爬虫、监控爬虫的调度情况
URL管理器：来对将要管理的URL，和已经下载过的URL进行管理
网页下载器：会将URL指定的网页下载下来,并且存储为字符串
存储的字符串通过网页解析器进行解析,把有价值的数据解析出来，网页还有其它的URL可以补充到URL管理器中

在这里插入图片描述

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。