python爬虫甲壳_python爬虫（一）

最新推荐文章于 2021-12-23 14:59:04 发布

小虎哥的舅舅

最新推荐文章于 2021-12-23 14:59:04 发布

阅读量263

点赞数

文章标签： python爬虫甲壳

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35699301/article/details/112944026

版权

一、HTTP协议

1.基本概念

HTTP，Hypertext Transfer Transfer Peotocol，超文本传输协议

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议

HTTP协议采用URL作为定位网络资源的标识，URL格式如下：

Http://host[:port][path]

host：合法的Internet主机域名或IP地址

port：端口号，缺省端口为80

path：请求资源的路径

HTTP URL实例：

http://www.bit.edu.cn

http://220.181.111.188/duty

HTTP URL的理解：

URL是通过HTTP协议存取资源Internet路径，一个URL对应一个数据资源

2.HTTP协议对资源的操作

GET　　请求URL位置的资源

HEAD　请求URL位置资源的响应消息报告，即获得该资源的头部信息

POST 请求向URL位置的资源后附加新的数据

PUT 请求向URL位置存储一个资源，覆盖原URL位置的资源

PATCH　请求局部更新URL位置的资源，即改变该处资源的部分内容

DELETE 请求删除URL位置存储的资源

其中GET、HEADE方法主要是用于获取数据，PUT、POST、PATCH、DELETE主要用于提交数据

3.PATCH与PUT的区别

假设URL位置有一组数据UserInfo，包括UserID，UserName等20各字段

需求：用户修改了UserName，其他不变

采用PATCH，仅向URL提交UserName的局部跟新请求

采用PUT，必须将所有的20个字段一并提交到URl，未提交字段将被删除

PATCH的最主要的好处：节省网络带宽

二、requests库的使用

requests库的7个主要方法：

1、GET方法

(一)requests.get(url,params=None,**kwargs)

url：拟获取页面的url链接

params：url中的额外参数，字典或字节流格式，可选

**kwargs：12各控制访问的参数

(二)response对象

response对象的属性

r.status_code　　 HTTP请求的返回状态，200表示连接成功，404或其他表示失败

r.text　　　　　　 HTTP响应内容的字符串形式

r.encoding　　　从HTTP header中猜测的响应内容编码方式

r.apparent_encoding 从HTTP响应内容分析出的内容编码方式

r.content　　 HTTP响应内容的二进制形式

(三)response的编码

r.encoding：如果header中不存在charset，则认为编码为ISO--8859-1

r.text根据r.encoding显示网页内容

r.apparent_encoding：根据网页内容分析出的编码方式

可以看作是r.encoding的备选

例子：

#-*- coding:utf-8 -*-#!/user/bin/env.python#Author:Mr Wu

importrequests

url="https://www.baidu.com"r=requests.get(url)print(r.encoding) #ISO-8859-1

print(r.text[1000:2000]) #无法正常显示字符

'''pan class="bg s_btn_wr">

小虎哥的舅舅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫甲壳_python爬虫（一）

一、HTTP协议1.基本概念HTTP，Hypertext Transfer Transfer Peotocol，超文本传输协议HTTP是一个基于“请求与响应”模式的、无状态的应用层协议HTTP协议采用URL作为定位网络资源的标识，URL格式如下：Http://host[:port][path]host：合法的Internet主机域名或IP地址port：端口号，缺省端口为80path：请求资源的路径...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。