爬虫入门 一:简单的HTTP请求

一、HTTP 基本概念

通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息,这两种类型的消息由一个其实行,一个或者多个头域,一个指示头域结束的空行和可选的消息体组成。  

1.HTTP概览

Request URL:表示请求的URL

Request Method :表示请求的方法,HTTP 请求的方法有 GET POST TION HEAD DELETE PUT 等,常用的就是GET 和POST方法。

   POST :

    向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。数据被包含在请求文本中。这个请求可能会创建新的资源或者修改现有资源,或二者皆有。

  GET:

     向指定资源发出“显示”的请求。

Status Code:显示HTTP 请求和状态码,表示HTTP 请求的状态,200表示请求已经被服务器接收、理解和处理;状态代码的第一个数字代表当前响应类型,HTTP协议中有以下几种响应类型:

1xx消息— 请求已被接收,继续处理

2xx成功—  请求已成功被服务器接收和理解并接受

3xx重定向— 需要后续操作才能完成这一请求

4xx请求错误— 请求含有此法错误或者无法被执行

5xx服务器错误— 服务器在处理某个正确请求时发生错误

2.HTTP请求头

Accept:表示请求的资源类型;
Cookie:为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据;
User-Agent:表示浏览器标识;
Accept-Language:表示浏览器所支持的语言类型;
Accept-Charset:告诉 Web 服务器,浏览器可以接受哪些字符编码;
Accept:表示浏览器支持的 MIME 类型;
Accept-Encoding:表示浏览器有能力解码的编码类型;
Connection:表示客户端与服务连接类型;

二、用Python 进行HTTP 请求

import requests
url='https://www.baidu.com'
data = requests.get(url)
print(data.status_code)
》》200
print(data.content)
》》下面图片

上图为HTML源码 没有经过解析

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值