爬虫笔记01

最新推荐文章于 2024-04-02 10:11:30 发布

KryHan

最新推荐文章于 2024-04-02 10:11:30 发布

阅读量360

点赞数

分类专栏： Python网络爬虫文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiyihan/article/details/118149310

版权

Python网络爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本书引导读者了解网络爬虫的背景、概念和用途，包括搜索引擎、数据获取、市场营销等应用场景。介绍了通用爬虫与聚焦爬虫的区别，以及累积式和增量式爬虫的实现方式。此外，还探讨了表层和深层爬虫在抓取网页数据上的差异。通过学习，读者将掌握网络爬虫的基本原理和实用技巧。

摘要由CSDN通过智能技术生成

《解析python网络爬虫：核心技术、Scrapy框架、分布式爬虫》黑马程序员著

第一章初识爬虫

学习目标

了解爬虫产生的背景，能够体会到爬虫的顺势而为
知道什么是爬虫
了解爬虫的用途，进一步理解网络爬虫的便捷之处
熟悉不同维度下爬虫的分类

1.1 爬虫产生的背景

企业产生的数据
数据平台购买的数据
政府机构公开的数据
数据管理咨询公司的数据
爬去的网络数据

1.2 爬虫的概念

一种按照一定规则自动请求万维网网站并提取网络数据的程序或脚本

1.3 爬虫的用途

搜索引擎
爬去图片
爬取用户公开联系方式，进行营销
爬取网站用户公开信息，进行分析
手机金融信息做投资分析
自动去除网页广告
即自动化收集重要数据

1.4 爬虫的分类

按照使用场景：通用爬虫，聚焦爬虫
通用爬虫：将爬虫对象从一些种子URL扩充到整个网络，主要用途是为门户站点搜索引擎和大型web服务提供商采集信息
聚焦爬虫：主题网络爬虫，选择性的爬行那些与预先定义好的主题相关的页面的网络爬虫
按照爬取形式：累积式爬虫，增量式爬虫
累积式爬虫：葱末一个时间点开始，通过遍历到方式爬取系统所允许存储和处理的所有网页
增量式爬虫：在具有一定量的网络规模的网络页面集合的基础上，采用更新数据的方式选取已有的集合中的过时的网页进行爬去，以保证索帕渠道的数据与真实网络足够接近
按照爬取数据的存在方式：表层爬虫，深层爬虫
表层爬虫：爬取表层网页的爬虫（静态网页）
深层爬虫：爬取深层网页的爬虫（隐藏在搜索表单后的，通过注册才能爬取的）

习题

填空题

网络爬虫又称网络蜘蛛，~~网络机器人~~
网络爬虫能够按照一定的规则，自动请求万维网网站并提取万维网网站数据
根据使用场景的不同可以分为：~~通用爬虫~~和~~聚焦爬虫~~两种
爬虫可以爬去互谅网上~~公开的~~且可以访问到的网页

简答

什么是网络爬虫？
件数通用爬虫和聚焦爬虫的区别
件数使用网络爬虫的优势

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

KryHan 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。