网络爬虫 requests 的使用

最新推荐文章于 2024-04-13 17:57:05 发布

奋斗的小小骚年

最新推荐文章于 2024-04-13 17:57:05 发布

阅读量685

点赞数

分类专栏： python spider

本文链接：https://blog.csdn.net/qq_41654985/article/details/81013517

版权

python 同时被 2 个专栏收录

61 篇文章 5 订阅

订阅专栏

spider

9 篇文章 0 订阅

订阅专栏

本文介绍如何使用Python发起HTTP GET和POST请求，解析响应内容，利用代理服务器，处理HTTPS请求，管理Cookies，以及使用session保持登录状态的方法。文章还涵盖了如何使用urllib3库进行网络请求。

摘要由CSDN通过智能技术生成

1.get 请求
- import requests
- kw = {'wd':'美女'}
- headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
- response = requests.get("http://www.baidu.com/s?",params=kw,headers=headers) 添加参数不需urlencode 编码
- print(response.request)
- #打印服务器返回的内容
- print(response.content.decode())
2.post请求
- import requests
- headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
- data = {"name":"zhangsan","age":"18"}
- response = requests.post("http://httpbin.org/post", data = data,headers=headers) 添加参数不需urlencode 编码
- print(response.request)
- #打印服务器返回的内容
- print(response.content.decode())
3.response方法和属性
- 查看响应内容，response.text 返回的是Unicode格式的数据
- 查看响应内容，response.content返回的原始二进制字节流，可以用来保存图片等二进制文件。 b'...'
- 查看完整url地址 response.url
- 查看响应头部字符编码 response.encoding
- 查看响应码 response.status_code
- 如果是json文件可以直接显示 print(response.json())
4.代理
- 免费代理
  - import requests
  - # 根据协议类型，选择不同的代理
  - proxies = {
  - "http": "123.139.56.238:9999",
  - }
  - response = requests.get("http://www.baidu.com/", proxies=proxies)
  - print(response.text)
- 私密代理
  - proxies = {
  - "http": "http://用户名:密码@ip:端口/",
  - }
- web客户端验证
  - response = requests.get('http://67.228.126:16818', auth =(用户名,密码))
5.cookie
- import requests
- response = requests.get("http://www.baidu.com/")
- # 返回CookieJar对象:
- cookiejar = response.cookies
- # 将CookieJar转为字典：
- cookiedict = requests.utils.dict_from_cookiejar(cookiejar)
- print(cookiejar)
- print(cookiedict)
6.处理HTTPS请求 SSL证书验证
- 如果SSL证书验证不通过，或者不信任服务器的安全证书，则会报出SSLError，据说 12306 证书是自己做的：
- import requests
- response = requests.get("https://www.12306.cn/mormhweb/", verify = False)
- print(response.content.decode("utf-8"))
7.session的使用登录人人网
- import requests
- # 1. 创建session对象，可以保存Cookie值
- session = requests.session()
- # 2. 处理 headers
- headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
- # 3. 需要登录的用户名和密码
- data = {"email":"用户名", "password":"密码"}
- # 4. 发送附带用户名和密码的请求，并获取登录后的Cookie值，保存在ssion里
- session.post("http://www.renren.com/PLogin.do", data = data)
- # 5. session包含用户登录后的Cookie值，可以直接访问那些登录后才可以访问的页面
- response = session.get("http://www.renren.com/880792860/profile")
- # 6. 打印响应内容
- print(response.text)
8.urllib3 的使用
- from urllib3 import PoolManager,disable_warnings
- http = PoolManager()
- request = http.request("GET",url,headers=headers) GET 请求方式还有POST， url 请求地址，headers自定义的请求头
- result = request.data.decode() data 响应内容