系统学习Python网络爬虫笔记（二）

最新推荐文章于 2024-08-06 17:20:59 发布

嗨害嗨嗨嗨

最新推荐文章于 2024-08-06 17:20:59 发布

阅读量611

点赞数

分类专栏： python爬虫学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43370436/article/details/123727026

版权

python爬虫学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

系统学习Python网络爬虫笔记（二）

文章目录

系统学习Python网络爬虫笔记（二）
- 第三章彻底了解网络爬虫

第三章彻底了解网络爬虫

3.1 爬虫能做什么

在这里插入图片描述
爬虫能够做什么：
1、能够采集网络数据
2、自动化测试
3、做一些脱离手动的操作（帮人投票，12306抢票，微信聊天助手–itchat）4、灰产业（薅羊毛，发起网络攻击，做水军）
本次学习重点集中于第一点————采集网络数据

数据能做什么
1、聚合产业（新闻网站，早期的今日头条）
2、搜索引擎（百度，谷歌）
3、数据分析、人工智能的源数据
4、特定领域的数据服务（二手车估价，天气预报，团购，去哪儿网等）

3.2 python网络爬虫需要的知识和解决的问题

学好爬虫需要的知识
1、计算机网络（http/https协议，tcp/ip协议，socket编程)
2、前端基础
3、正则表达式
4、数据存储技术（分布式存储
5、并发处理技术（多线程，多进程，线程池，协程）
6、图像识别（处理反爬、验证码），机器学习算法（验证码、数据解析）

爬虫中要解决的问题
1、爬虫的采集和更新策略
2、解决反爬
3、数据解析
4、数据存储
5、模拟登陆（验证码识别）
6、爬虫的监控和部署
7、数据的去重（url去重，内容去重）

3.3 爬虫是万能的吗

如何正确看待爬虫
1、爬虫不应毫无节制
2、robots协议
3、法律问题
4、爬虫不能抓取到网页上看不到的数据，是为了防止重复工作
5、目标网站会乖乖的让我们随便爬数据吗？ - 反爬

大型网站会在根目录下放置robots协议，下面以淘宝的robots协议为例：
在这里插入图片描述
user-agent是爬虫的名称，比如第一个是百度的爬虫
allow是允许这个爬虫爬取的内容
disallow就是不允许爬取

嗨害嗨嗨嗨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
系统学习Python网络爬虫笔记（二）

系统学习Python网络爬虫笔记（二）文章目录系统学习Python网络爬虫笔记（二）第三章彻底了解网络爬虫3.1 爬虫能做什么3.2 python网络爬虫需要的知识和解决的问题3.3 爬虫是万能的吗第三章彻底了解网络爬虫3.1 爬虫能做什么爬虫能够做什么：1、能够采集网络数据2、自动化测试3、做一些脱离手动的操作（帮人投票，12306抢票，微信聊天助手–itchat）4、灰产业（薅羊毛，发起网络攻击，做水军）本次学习重点集中于第一点————采集网络数据数据能做什么1、聚合产业（新
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。