* 基本库的使用
* urllib
1.发送请求
2.处理异常模块
3.parse解析模块的使用
4.自定义handler
5.robot协议介绍
* requests网络请求库的使用(get、post请求、文件上传、cookies会话维持,代理设置)
* 正则表达式:
* 匹配规则表、贪婪非贪婪、修饰符、转义匹配
* compile
* match
* search
* findall
* sub
* split
什么是爬虫网络爬虫?
网络爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
通俗的讲: 就是模拟客户端发起网络请求,接收请求的响应,按照一定的规则,自动的抓取互联网信息的程序。 原则上只要浏览器能够做的事情,爬虫都能够实现
百度百科:网络爬虫介绍
https://baike.baidu.com/item/网络爬虫
七层协议
目的:OSI 七层模型通过七个层次化的结构模型使不同的系统不同的网络之间实现可靠的通讯,因此其最主要的功能就是帮助不同类型的主机实现数据传输
应用层:
- 网络服务与最终用户的一个接口。
- 协议有:HTTP HTTPS FTP …
表示层:
- 主要功能是定义数据格式及加密即对上层数据或信息进行变换以