系统学习Python网络爬虫笔记(二)

系统学习Python网络爬虫笔记(二)


第三章 彻底了解网络爬虫

3.1 爬虫能做什么

在这里插入图片描述
爬虫能够做什么:
1、能够采集网络数据
2、自动化测试
3、做一些脱离手动的操作(帮人投票,12306抢票,微信聊天助手–itchat)4、灰产业(薅羊毛,发起网络攻击,做水军)

本次学习重点集中于第一点————采集网络数据

数据能做什么
1、聚合产业(新闻网站,早期的今日头条)
2、搜索引擎(百度,谷歌)
3、数据分析、人工智能的源数据
4、特定领域的数据服务(二手车估价,天气预报,团购,去哪儿网等)

3.2 python网络爬虫需要的知识和解决的问题

学好爬虫需要的知识
1、计算机网络(http/https协议,tcp/ip协议,socket编程)
2、前端基础
3、正则表达式
4、数据存储技术(分布式存储
5、并发处理技术(多线程,多进程,线程池,协程)
6、图像识别(处理反爬、验证码),机器学习算法(验证码、数据解析)

爬虫中要解决的问题
1、爬虫的采集和更新策略
2、解决反爬
3、数据解析
4、数据存储
5、模拟登陆(验证码识别)
6、爬虫的监控和部署
7、数据的去重(url去重,内容去重)

3.3 爬虫是万能的吗

如何正确看待爬虫
1、爬虫不应毫无节制
2、robots协议
3、法律问题
4、爬虫不能抓取到网页上看不到的数据,是为了防止重复工作
5、目标网站会乖乖的让我们随便爬数据吗? - 反爬

大型网站会在根目录下放置robots协议,下面以淘宝的robots协议为例:
在这里插入图片描述
user-agent是爬虫的名称,比如第一个是百度的爬虫
allow是允许这个爬虫爬取的内容
disallow就是不允许爬取

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值