2. 爬虫基础

HTTP 原理

  • URI : Uniform Resource Identifier 统一资源标识符
  • URL : Universal Resource Locator 统一资源定位符
  • URN : Universal Resource Name 统一资源名称,只命名资源而不指定如何定位资源
  • HTTP : Hyper Text Transfer Protocol 超文本传输协议
  • HTTPS : Hyper Text Transfer Protocol over Secure Socket Layer
  • 请求的构成:请求方法(Request Method)、请求的网址(Request URL)、请求头(Request Headers)、请求体(Request Body)
  • Request Header 中的 User-Agent,可以使服务器识别客户使用的操作系统及版本、浏览器及版本信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫
  • Request Header是请求的重要组成部分,在写爬虫时,大部分情况下都需要设定请求头
  • 爬虫中,如果要构造POST请求,需要使用正确的Content-Type,并了解各种请求库的各个参数设置时使用的是哪种Content-Type,不然会导致POST提交后无法正常响应
Content-Type提交数据的方式
application/x-www-form-urlencoded表单数据
multipart/form-data表单文件上传
application/json序列化JSPN数据
text/xmlXML数据
  • 响应的构成:响应状态码(Response Status Code)、响应头(Response Headers)、响应体(Response Body)
  • 在做爬虫时,主要通过响应体得到网页的源代码、JSON数据等,然后从中做响应内容的提取
  • CSS : Cascading Style Sheets 层叠样式表
  • DOM : Document Object Model 文档对象模型
  • 核心DOM、XML DOM、HTML DOM
  • 选择器: 井号(#)开头代表选择id;点(.)开头代表选择class;标签名选择
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值