Python爬虫-requests使用

最新推荐文章于 2024-11-05 15:32:33 发布

Asura_____

最新推荐文章于 2024-11-05 15:32:33 发布

阅读量158

点赞数

分类专栏： Python爬虫文章标签： python 爬虫 http

本文链接：https://blog.csdn.net/Asura_____/article/details/123367221

版权

Python爬虫专栏收录该内容

15 篇文章 2 订阅

订阅专栏

requests库基本使用

什么是requests？
一个跟urllib类似但比它方便的库。

一个类型和六个属性

Response类型
print(type(response))

设置响应的编码格式
response.encoding = 'utf-8'

以字符串的形式来返回了网页的源码
print(response.text)

返回一个url地址
print(response.url)

返回的是二进制的数据
print(response.content)

返回响应的状态码
print(response.status_code)

返回的是响应头
print(response.headers)

get请求

import requests

url = 'https://www.baidu.com/s'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

data = {
    'wd':'北京'
}


# url  请求资源路径
# params 参数
# kwargs 字典
response = requests.get(url=url,params=data,headers=headers)

content = response.text

print(content)

总结：

（1）参数使用params传递
（2）参数无需urlencode编码
（3）不需要请求对象的定制
（4）请求资源路径中的？可以加也可以不加

post请求

import requests

url = 'https://fanyi.baidu.com/sug'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

data = {
    'kw': 'eye'
}

# url 请求地址
# data 请求参数
# kwargs 字典
response = requests.post(url=url,data=data,headers=headers)

content =response.text

import json

obj = json.loads(content,encoding='utf-8')
print(obj)

总结：

（1）post请求是不需要编解码
（2）post请求的参数是data
（3）不需要请求对象的定制

代理

import requests

url = 'http://www.baidu.com/s?'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
}

data = {
    'wd':'ip'
}


proxy = {
    'http':'212.129.251.55:16816'
}

response = requests.get(url = url,params=data,headers = headers,proxies = proxy)

content = response.text

with open('daili.html','w',encoding='utf-8')as fp:
    fp.write(content)