python进阶,爬虫简介
1.通讯协议
1.1端口
数据通讯分为那几步?
- 找到对⽅ip
- 数据要发送到指定应用程序上。为了标识这些程序,给网络
应用程序用数字进行标识。这个数字就叫端口。一般叫“逻辑端口” - 定义通讯规则,一般称为协议。
1.2通讯协议
- 国际组织定义了通用的协议 TCP/IP协议
- 所谓协议就是两台计算机之间进行通信必须遵守的规定或规则
- HTTP(HyperText Transfer Protocol) 叫做超文本传输协议 是⼀种发布 和接收 HTML⻚⾯的⽅法。HTTP 它的端口是 80
2.网络模型
后期更新TCP/IP模型
2.1 HTTPS是什么呢?
- https=http+ssl,https是在http的基础上加上了SSL保护壳,信 息的加密过程就是在SSL中完成的 https。
- 是以安全为⽬标的HTTP通道,简单讲是HTTP的安全版。
- 即HTTP下 加⼊SSL层,HTTPS的安全基础是SSL
2.2 怎么理解SSL?
- SSL也是⼀个协议主要⽤于web的安全传输协议
3.爬虫介绍
3.1什么是爬虫?
- 简单⼀句话就是 代替⼈去模拟浏览器进⾏⽹⻚操作
3.2 为什么需要爬虫?
为其他程序提供数据源
- 如搜索引擎(百度、Google等)、
- 数据分析(抖音喜好推荐)、⼤数据
- AI人工智能 无人驾驶 人脸识别 智能家居 智能语音…
3.3企业获取数据的⽅式?
- 1.公司⾃有的数据
- 2.第三⽅平台购买的数据 (百度指数、数据堂)
- 3.爬⾍爬取的数据
3.4 Python 做爬⾍的优势
- PHP : 对多线程、异步⽀持不太好
- Java : 代码量⼤,代码笨重
- C/C++ : 代码量⼤,难以编写
- Python : ⽀持模块多、代码简介、开发效率⾼ (scrapy框架)
3.5爬虫分类
- 通用爬虫
- 通⽤⽹络爬⾍
- 例如 baidu google yahu
- 聚焦⽹络爬⾍: 根据既定的⽬标有选择的抓取某⼀特定主题内容
- 增量式⽹络爬⾍: 指对下载⽹⻚采取增量式的更新和只爬⾏新产⽣的或者已经 发⽣变化的⽹⻚爬⾍
- 深层⽹络爬⾍: 指那些⼤部分内容不能通过静态链接获取的、隐藏在搜索表单 后的,只有⽤户提交⼀些关键词才能获得的web⻚⾯
- 例如 ⽤户登录注册才能 访问的⻚⾯