1.什么是爬虫
请求网站并提取数据的自动化程序
2. 爬虫基本流程
发起请求——>获取响应内容——>解析内容——>保存数据
3.Request中包含什么
请求方式(主要有Get和Post)、请求URL、请求头、请求体
4.Response中包含什么
响应状态(如200,404等)、响应头、响应体
5.解析方式
- 直接处理
- Json解析(Json:JavaScript 对象表示法,可以理解为Js语法的子集)
- 正则表达式
- BeautifulSoup库
- PyQuery库
- XPath库
6.怎么解决JS渲染问题
- 分析Ajax请求
- selenium / webDriver
- Splash
- PyV8、Ghost.py
7.怎样保存数据
-