Python3学习—爬虫原理-CSDN博客

学习的资源来自于崔庆才的爬虫视频，虽然他对自己的这个视频并不是很满意，但我却在其中收获了很多，也看到和同龄人的差距，激励自己要更加努力，分享给大家我导师常说的一句话：“我们要对别人宽容，但不要轻易放弃对自己的治疗。”望与君共勉。
1.什么是爬虫？
请求网站并提取数据的自动化程序
2.爬虫的基本流程
1）发起请求
通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。
2）获取响应内容
如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可以有HTML、Json字符串，二进制数据等类型。
3）解析内容
得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析。可能是Json，可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步处理。
4）保存数据
保存形式多样，可以存为文本或者数据库，或者特定格式的内容。
3.Request与Response
在访问某一网站，主机向服务器发送一个Request的请求（包含请求信息），服务器进行解析并响应，发送一个Response，里面包含请求的信息。
4.Request内容
1）请求方式：GET、POST
2）请求URL：统一资源定位符，比如一张图片、一个视频等都可以用URL唯一来确定。
3）请求头：包含请求时的头部信息，如User-Agent、Host、Cookies等信息。
4）请求体：请求时额外携带的数据，如表单提交时的表单数据。
5.Request内容
1）响应状态：状态码（200、300、400、500）
2）响应头：内容类型、内容长度、服务器信息，设置Cookie等。
3）响应体：最主要的部分，包含了请求资源的内容，如网页HTML、图片、二进制数据等。
6.抓取数据类型
1）网页文本：HTML Json
2）图片：二进制流形式
3）视频：二进制格式
4）其他：
7.解析方式
1）直接解析
2）Json解析
3）正则表达式
4）BeautifulSoup
5）PyQuery
…
8.解决JS渲染
1.分析Ajax请求
2.Selenium/web driver
3.Splash