利用requests库进行爬虫简介

最新推荐文章于 2021-09-30 21:07:17 发布

贺俊宏

最新推荐文章于 2021-09-30 21:07:17 发布

阅读量418

点赞数

分类专栏：药用数据库的数据提取与使用

本文链接：https://blog.csdn.net/recher_He1107/article/details/100552386

版权

药用数据库的数据提取与使用专栏收录该内容

18 篇文章 59 订阅

订阅专栏

requests 的基本使用方式

="350"

其实最常使用的方式也就事 get 和 post 分别用于获取和上传,即分别用于数据性网站和检索性网站.
get简单粗暴,就介绍一下post:
POST 请求
通常，你想要发送一些编码为表单形式的数据——非常像一个 HTML 表单。要实现这个，只需简单地传递一个字典给 data 参数。你的数据字典在发出请求时会自动编码为表单形式,如:

>>> payload = {'key1': 'value1', 'key2': 'value2'}

>>> r = requests.post("http://httpbin.org/post", data=payload)
>>> print(r.text)
{
  ...
  "form": {
    "key2": "value2",
    "key1": "value1"
  },
  ...
}

而如果是用一个key拥有多个value就可以使用元组进行data参数的传递:

>>> payload = (('key1', 'value1'), ('key1', 'value2'))
>>> r = requests.post('http://httpbin.org/post', data=payload)
>>> print(r.text)
{
  ...
  "form": {
    "key1": [
      "value1",
      "value2"
    ]
  },
  ...

很多时候你想要发送的数据并非编码为表单形式的。如果你传递一个字符串而不是一个字典，那么数据会被直接发布出去。

例如，Github API v3 接受编码为 JSON 的 POST/PATCH 数据

>>> import json

>>> url = 'https://api.github.com/some/endpoint'
>>> payload = {'some': 'data'}

>>> r = requests.post(url, data=json.dumps(payload))

(json,dumps()是将字典变为JSON格式,与之相对的是json.loads())
此处除了可以自行对字典进行编码，你还可以使用 json 参数直接传递，然后它就会被自动编码。这是 2.4.2 版的新加功能：

>>> url = 'https://api.github.com/some/endpoint'
>>> payload = {'some': 'data'}

>>> r = requests.post(url, json=payload)

Requests 使得上传多部分编码文件变得很简单:

>>> url = 'http://httpbin.org/post'
>>> files = {'file': open('report.xls', 'rb')}

>>> r = requests.post(url, files=files)
>>> r.text
{
  ...
  "files": {
    "file": "<censored...binary...data>"
  },
  ...
}

你可以显式地设置文件名，文件类型和请求头：

  >>> url = 'http://httpbin.org/post'
  >>> files = {'file': ('report.xls', open('report.xls', 'rb'), 'application/vnd.ms-excel', {'Expires': '0'})}
    
  >>> r = requests.post(url, files=files)
  >>> r.text
    {
      ...
      "files": {
        "file": "<censored...binary...data>"
      },
      ...
    }

可用于requests库的参数

headers

形式为字典,表示所用的User-Agent 如:

import requests
url = 'https://www.baidu.com'
response = requests.get(url)
# 打印响应对应请求的请求头信息
print(response.request.headers)

其结果为

{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

请求参数 params

请求参数为url后接的?选项,其形式为字典

import requests
url = 'https://www.baidu.com'
kw = {"kw":"长城"}
requests.get(url,params=kw)

可以直接将parames以?+params的形式加在url后面发送请求

import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
url = 'https://www.baidu.com/s?wd=python'
# kw = {'wd': 'python'}
# url中包含了请求参数，所以此时无需params
response = requests.get(url, headers=headers)

设置限制时间与判断网络连接状态

    try:
        r = requests.get(url,timeout = 30)
        #设置限制时间为30s
        r.raise_for_status()
        #判断网络连接状态
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

代理 proxies

用于防反爬取的同时,让爬取网站无法获取本机的真实ip地址
代理IP的分类
根据代理ip的匿名程度，代理IP可以分为下面四类：
透明代理(Transparent Proxy)：透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以查到你是谁。
匿名代理(Anonymous Proxy)：使用匿名代理，别人只能知道你用了代理，无法知道你是谁。
高匿代理(Elite proxy或High Anonymity Proxy)：高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。
混淆代理(Distorting Proxies)：与匿名代理相同，如果使用了混淆代理，别人还是能知道你在用代理，但是会得到一个假的IP地址，伪装的更逼真

proxies = { 
  "http": "http://12.34.56.79:9527", 
  "https": "https://12.34.56.79:9527", 
  }
requests.get("http://www.baidu.com",  proxies = proxies)

cookie

cookie用于爬取需要登陆的网站页面,其使用方式有两种
1.再header中加入cookie

#cookie的格式也是字典格式
url = "www.baidu.com"
headers = {
"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
"Cookie":" Pycharm-26c2d973=dbb9b300-2483-478f-9f5a-16ca4580177e; Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1512607763; Pycharm-26c2d974=f645329f-338e-486c-82c2-29e2a0205c74; _xsrf=2|d1a3d8ea|c5b07851cbce048bd5453846445de19d|1522379036"}
requests.get(url,headers=headers)

2.也可以使用session获取上级的url储存的本地cookie:
session = requests.session()
response = session.get(url,headers)
session实例在请求了一个网站后，对方服务器设置在本地的cookie会保存在session中，下一次再使用session请求对方服务器的时候，会带上前一次的cookie