HTTP 原理
- URI : Uniform Resource Identifier 统一资源标识符
- URL : Universal Resource Locator 统一资源定位符
- URN : Universal Resource Name 统一资源名称,只命名资源而不指定如何定位资源
- HTTP : Hyper Text Transfer Protocol 超文本传输协议
- HTTPS : Hyper Text Transfer Protocol over Secure Socket Layer
- 请求的构成:请求方法(Request Method)、请求的网址(Request URL)、请求头(Request Headers)、请求体(Request Body)
- Request Header 中的 User-Agent,可以使服务器识别客户使用的操作系统及版本、浏览器及版本信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫
- Request Header是请求的重要组成部分,在写爬虫时,大部分情况下都需要设定请求头
- 爬虫中,如果要构造POST请求,需要使用正确的Content-Type,并了解各种请求库的各个参数设置时使用的是哪种Content-Type,不然会导致POST提交后无法正常响应
Content-Type | 提交数据的方式 |
---|---|
application/x-www-form-urlencoded | 表单数据 |
multipart/form-data | 表单文件上传 |
application/json | 序列化JSPN数据 |
text/xml | XML数据 |
- 响应的构成:响应状态码(Response Status Code)、响应头(Response Headers)、响应体(Response Body)
- 在做爬虫时,主要通过响应体得到网页的源代码、JSON数据等,然后从中做响应内容的提取
- CSS : Cascading Style Sheets 层叠样式表
- DOM : Document Object Model 文档对象模型
- 核心DOM、XML DOM、HTML DOM
- 选择器: 井号(#)开头代表选择id;点(.)开头代表选择class;标签名选择