小白入门python网络爬虫和信息提取(一)——requests库入门

小白入门python网络爬虫和信息提取(一)——requests库入门

第一次写CSDN的博客,正好这两天自己的兴趣突然产生了,自己摸索着学了一点网络爬虫的东西,写篇博客试一下。主要是课上学的都是C语言,C++面向对象…所以课下就想自己学学python,觉得蛮好玩的,练习网络爬虫的时候顺便也当学习一下python的基础语法吧。
学了一段时间的爬虫,觉得网络爬虫就像浏览器访问网站一样,只不过浏览器是为了将网站服务器返回的数据转化为人类看的网页内容,而爬虫则是为了爬取并提取网页的信息。人类看的是图象,而爬虫看的是文本。

首先安装requests库:

windows系统下按Win+R 输入cmd启动命令行解释器 输入pip install requests
将自动安装requests库

用requests库向服务器发起请求:

Requests是一个自动向网页发起请求的工具
可以使用这个工具向网站服务器发起请求
主要使用的函数接口是:

r = requests.get(url,params=None,**kwargs)

其中:
url : 拟获取页面的URL链接
params : url中的额外参数,字典或者字节流格式(可选)
**kwargs : 13个控制访问的参数(可选)
返回的对象类型为<class 'requests.models.Response'>

Requests库还提供了一共七种请求方法:

request get head post put patch delete

而第一种requests.request是Requests库提供的最基础的访问请求方式,后六种均是对request方法的不同封装。与之对应的是HTTP对资源的六种操作:
GET:请求资源
HEAD:请求相应信息报告,获取头部信息
POST:附加新的数据
PUT:储存一个资源,覆盖原URL位置的资源
PATCH:请求局部更新资源 即改变部分内容
DELETE:请求删除资源

处理请求得到的数据:

一、首先,检查服务器响应的结果:
r.status_code检查HTTP返回的状态,只有当返回值为200时才说明成功获得响应。

>>> r.status_code
200
>>> r.url	#查看真实访问的链接

其他的返回值所反映的错误提示,可以搜索引擎一波:

常见的状态代码:
200 – 服务器成功返回网页
404 – 请求的网页不存在
503 – 服务器暂时不可用

1xx:请求收到,继续处理
2xx:操作成功收到,分析、接受
3xx:完成此请求必须进一步处理
4xx:请求包含一个错误语法或不能完成
5xx:服务器执行一个完全有效请求失败

二、查看编码方式:

>>> r.encoding	#从HTTP header中猜测的响应内容的编码方式
'ISO-8859-1'
>>> r.apparent_encoding	#从内容中分析出的响应内容的编码方式(备选编码方式)
'utf-8'

如果HTTP返回信息的header.charset里告诉了建议的编码方式,则encoding中是给出的建议编码方式,如果没有默认的是ISO-8859-1编码。
apparent_encoding中的是requests库根据内容推测出的编码方式,一般较准确。所以这个地方我们可以直接采用推测出的编码方式:

>>
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值