Python爬虫（一）基础知识

最新推荐文章于 2024-04-18 15:31:24 发布

雅痞熊

最新推荐文章于 2024-04-18 15:31:24 发布

阅读量216

点赞数

分类专栏： Python 文章标签： python爬虫爬虫基础知识

本文链接：https://blog.csdn.net/qq_38060720/article/details/101519328

版权

3 篇文章 0 订阅

订阅专栏

爬虫的概念、工具和HTTP

http：超文本传输协议
- 以明文的形式传输
- 效率更高，但是不安全
https：http + SSL（安全套接字层）
- 传输之前数据先加密，之后解密获取内容
- 效率较低，但是安全
get 请求和 post 请求的区别
- get请求没有请求体，post 有，get 请求把数据放在url地址中
- post 请求常用于登陆注册，传输大文本的时候
- post 请求携带的数据量比 get 请求大/多，常用于传输大文本的时候
HTTP 协议之请求
- 请求行
- 请求头
  - User-Agent（用户代理）：对方服务器能够通过User-Agent 知道当前请求对方资源的是什么浏览器
    - 如果我们需要模拟手机版的浏览器发送请求，就需要把 User-Agent 改成手机版
  - Cookie：用来存储用户信息的，每次请求会被携带上发送给对方的浏览器
    - 要获取登陆后才能访问的页面
    - 对方的服务器会通过Cookie来判断我们是不是爬虫
- 请求体
  - 请求体是什么呢？携带数据
  - post 请求有请求体
  - get 请求没有请求体
HTTP协议之响应
- 响应头
  - Set-Cookie：对方服务器通过该字段设置Cookie到本地
- 响应体
  - url 地址对应的响应