Python爬虫——爬虫请求模块

最新推荐文章于 2024-02-23 08:00:00 发布

萌新吧

最新推荐文章于 2024-02-23 08:00:00 发布

阅读量219

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_46147573/article/details/105933574

版权

Python爬虫——爬虫请求模块

1.urllib.request模块
2. urllib.parse模块
- 2.1 常用方法
3. 请求方式
4. requests模块

1.urllib.request模块

1.1 版本

python2 ：urllib2、urllib
python3 ：把urllib和urllib2合并,urllib.request

1.2 常用的方法

urllib.request.urlopen(“网址”) 作用：向网站发起一个请求并获取响应
字节流 = response.read()
字符串 = response.read().decode(“utf-8”)
urllib.request.Request(“网址”,headers=“字典”) urlopen()不支持重构User-Agent

import urllib.request

url = 'http://www.baidu.com/'

headers ={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
}

req = urllib.request.Request(url,headers=headers)
response = urllib.request.urlopen(req)
# 字节流数据
print(type(response.read()))                    #<class 'bytes'>
# 字符串数据
print(type(response.read().decode('utf-8')))    #<class 'str'>

1.3 响应对象

read() 读取服务器响应的内容
getcode() 返回HTTP的响应码
geturl() 返回实际数据的URL(防止重定向问题)

import urllib.request

url = 'http://www.baidu.com/'

headers ={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
}

req = urllib.request.Request(url,headers=headers)
response = urllib.request.urlopen(req)

# 获取响应内容
print(response.read())          #b'...'
# 获取响应码
print(response.getcode())       #200
# 获取实际数据的url
print(response.geturl())        #https://www.baidu.com/

2. urllib.parse模块

2.1 常用方法

urlencode(字典)
quote(字符串) (这个里面的参数是个字符串)

import urllib.parse

words = {'wd':'我爱学习'}
words = urllib.parse.urlencode(words)
print(words)        #wd=%E6%88%91%E7%88%B1%E5%AD%A6%E4%B9%A0

my_words = urllib.parse.quote('我爱学习')
print(my_words)     #%E6%88%91%E7%88%B1%E5%AD%A6%E4%B9%A0

3. 请求方式

GET 特点：查询参数在URL地址中显示
POST
- 在Request方法中添加data参数
  urllib.request.Request(url,data=data,headers=headers)
- data ：表单数据以bytes类型提交,不能是str

# GET方式，如百度翻译
# Request URL: https://www.baidu.com/s?ie=UTF-8&wd=%E6%88%91%E7%88%B1%E5%AD%A6%E4%B9%A0
# Request Method: GET

# POST方式 ，如：有道翻译
# Request URL: http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule
# Request Method: POST
import urllib.request
import urllib.parse

# 大概的使用格式如下：
headers ={...}
data = {...}
data = urllib.parse.urlencode(data)
# 把data转换成字节
data = bytes(data,'utf-8')
url = '...'
req = urllib.request.Request(url,data=data,headers=headers)

4. requests模块

4.1 安装

pip install requests
在开发工具中安装

'''第一种'''
# 打开cmd命令提示符，输入以下指令
pip install request
'''第二种'''
# 1.在pycharm中打开File→setting的Project:xxx下的Project Interpreter
# 2.再点击右边窗口的‘+’号搜索requests，点击Install Package即可

4.2 request常用方法

requests.get（网址）

import requests

url = 'https://www.baidu.com/'
response = requests.get(url)

print(response)         #<Response [200]>

4.3 响应对象response的方法

response.text 返回unicode格式的数据(str)
response.content 返回字节流数据(二进制）
response.content.decode(‘utf-8’) 手动进行解码
response.url 返回url
response.encode() = ‘编码’

import requests

url = 'https://www.baidu.com/'
response = requests.get(url)

# print(response.text)                      #一大堆而且有乱码的东西
# print(response.content)                   #返回字节流数据，并且没有乱码
# print(response.content.decode('utf-8'))   #返回一大堆但是没有乱码的东西
# print(response.url)                       #https://www.baidu.com/

response.encoding = 'utf-8'
print(response.text)                        #结果和response.content.decode('utf-8')的一样

4.4 requests模块发送 POST请求

import requests

#大致格式如下：
data = '...'		#需要提交的表单数据
headers = '...'		#请求访问的请求头
url = '...'			#想要访问的网页地址
res = requests.post(url,data=data,headers=headers)

4.5 requests设置代理

使用requests添加代理只需要在请求方法中(get/post)传递proxies参数就可以了
代理网站
西刺免费代理IP：http://www.xicidaili.com/
快代理：http://www.kuaidaili.com/
代理云：http://www.dailiyun.com/

import requests
# request设置代理
proxy = {
        'http':'代理ip地址：端口地址'
}
url  = 'http://www.httpbin.org/ip'
res = requests.get(url,proxies=proxy)
print(res.text)
# 若能正常使用，会出现以下结果
# {
#   "origin": "代理ip地址：端口地址"
# }

4.6 cookie

cookie ：通过在客户端记录的信息确定用户身份
HTTP是一种无连接协议,客户端和服务器交互仅仅限于请求/响应过程,结束后断开,下一次请求时,服务器会认为是一个新的客户端,为了维护他们之间的连接,让服务器知道这是前一个用户发起的请求,必须在一个地方保存客户端信息。

4.7 session

session ：通过在服务端记录的信息确定用户身份这里这个session就是一个指的是会话

暂时没有找到合适的案例，后面再进行修改

4.8 处理不信任的SSL证书

什么是SSL证书？

SSL证书是数字证书的一种，类似于驾驶证、护照和营业执照的电子副本。因为配置在服务器上，也称为SSL服务器证书。SSL 证书就是遵守 SSL协议，由受信任的数字证书颁发机构CA，在验证服务器身份后颁发，具有服务器身份验证和数据传输加密功能

萌新吧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫——爬虫请求模块

Python爬虫——爬虫请求模块1.urllib.request模块1.1 版本1.2 常用的方法1.3 响应对象2. urllib.parse模块2.1 常用方法3. 请求方式4. requests模块4.1 安装4.2 request常用方法4.3 响应对象response的方法4.4 requests模块发送 POST请求4.5 requests设置代理4.6 cookie4.7 sessi...
复制链接

扫一扫