1、爬虫的概念
-
爬虫是模拟浏览器发送请求,获取相应
-
爬虫的流程
-
URL--->发送请求,获取相应--->提取数据--->保存本地
-
发送请求,获取相应---提取 URL
graph TD
A[url list] -->|发送请求| B(相应内容)-->E(提取url)-->A
B --> C(提取数据)
C --> D[模块D]
-
爬虫要根据当前 url 地址对应的响应为准,当前 url 地址的 elements 的内容和 url 的响应 network 不一样
-
页面上的数据在哪里
-
当前 url 地址对应的响应中
-
其他的 url 地址对应响应中
-
比如 ajax 请求中
-
js 生成
-
部分数据在响应中
-
全部通过 js 生成
2、requests 库学习
-
为什么学习 requests,而不是 urllib1.requests 的底层就是 urllib2.requests 在 Python2 和 Python3 中通用,方法完全一样 3.requests 简单易用 4.requests 能够自动帮助我们解压(gzip 压缩的等)网页内容
-
url 编码
-
http://www.baidu.com/s?wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2
-
字符串格式化的另一种方式
"传{}智播客".format(1)