目录
1. 爬虫简介
- 爬虫须知概念
- 爬虫分类
2. HTTP和HTTPS协议
- 端口
- 网络模型
- HTTP协议简介
- HTTP请求与响应
3. 网页信息分析
课堂笔记
1. 爬虫简介
1.1 爬虫须知概念
-
⽹络爬⾍(⼜被称为⽹⻚蜘蛛,⽹络机器⼈)就是模拟客户端发送⽹络请求, 接收请求响应,⼀种按照⼀定的规则,⾃动地抓取互联⽹信息的程序。 只要是浏览器能做的事情,原则上,爬⾍都能够做
-
为什么需要爬虫
- 为其他程序提供数据源 如搜索引擎(百度、Google等)、数据分析、大数据等等
-
Python做爬虫有哪些优势
-
PHP : 对多线程、异步支持不太好
-
Java : 代码量大,代码笨重
-
C/C++ : 代码量大,难以编写
-
Python : 支持模块多、代码简介、开发效率高 (scrapy框架)
-
-
Python如何爬取网页上的数据
-
网页三大特征:
- 网页都有自己唯一的URL
- 网页均由HTML描述其内容
- 网页都使用HTTP/HTTPS协议传输HTML数据
-
爬虫设计思路:
- 确定爬取的URL地址
- 通过HTTP/HTTPS获取对应的HTML页面
- 提取页面有用信息
-
1.2 爬虫分类
- 通用爬虫,主要将网页内容下载到本地,如 谷歌、百度、雅虎
- 聚焦爬虫,根据既定主题有选择地抓取特定内容
- 增量式网络爬虫,对下载的内容采取增量式更新或只爬取更新或改变部分的爬虫
- 深层网络爬虫,用于爬