网络爬虫是什么?
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
我为什么要学习网络爬虫?
互联网世界很大,我想去看看,人力终究是有限的,就让机器去帮我拿到我想要的吧!
道德规范—Robots协议
Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取。
以淘宝为例:
在浏览器框中输入https://www.taobao.com/robots.txtd
可查看淘宝的robots协议,具体显示如下:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
Python爬虫技术基础学习
获取网页
基础技术:
- request
- urllib
- selenium
进阶技术:
- 多进程多线程抓取
- 登录抓取
- 突破IP封禁
- 服务器抓取
解析网页
基础技术:
- re正则表达式
- BeautifulSoup
- lxml
进阶技术:
- 解决中文乱码
存储网页
基础技术:
- 存入txt文件
- 存入csv文件
进阶技术:
- 存入MySql数据库
- 存入MongDB数据库
Python反爬虫技术
接下来将学习如下反爬虫技术:
- Cookie反爬虫
- WebSocket反爬虫
- 字体反爬虫
- WebDriver反爬虫
- APP反爬虫
- 验证码反爬虫
- JavaScript混淆
- CSS偏移
- ……
总结
以上就是今天要讲的内容,本文仅仅简单介绍了网络爬虫是什么?Robots协议是什么?以及爬虫三大流程技术学习和接下来的反爬虫技术学习