爬虫request模块

get请求

步骤

1.导包

import requests

2.确定请求的url

	base_url = ''

3.发送请求,获取响应

response = requests.get(
    	url = base_url   ## 发送请求的url
    	headers = {} ## 请求头,字典形式,用于最基本的反爬
    	params = {}  ## 请求参数,字典形式
    )

4.response这个对象包含的一些属性

(1)状态码:
   response.status_code
(2)响应头
	 response.headers
(3)响应内容
    字符串形式返回
    response.text
    二进制形式返回
    response.content
    响应内容的编码格式
    response.encoding

(4)响应内容乱码问题

解决办法:指定解码格式(与网页的编码一致)
第一种
response.encoding = ''
第二种
response.content.decode('')

get请求项目类别

1.没有请求参数,比如百度和百度产品项目,只需要添加请求头,封装User-Agent这个请求头就可以了

案例:百度

### 导包
import requests
### 确定基础url
base_url = 'https://www.baidu.com/'
### 设置请求头
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}

### 发送请求,获取响应
response = requests.get(url=base_url,headers=headers)
### 将结果写入文件
with open('baidu.html','w',encoding='utf-8') as fp:
    fp.write(response.content.decode('utf-8'))

2.带请求参数的,比如新浪这个项目

base_url:问号之间包括问号的内容

请求参数字典:

params = {

	字典的内容:Chrome里面query string params里面的内容

}

案例:新浪

### 导包
import requests
### 基础的url
base_url = 'https://search.sina.com.cn/?'
### 请求头
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}

###确定请求参数
key = input('请输入关键字')
params = {
    'q': key,
    'c': 'news',
    'from': 'channel',
    'ie': 'utf-8'
}
### 发送请求,返回响应
response = requests.get(url=base_url,headers=headers,params=params)
with open('sina_news.html','w',encoding='gbk') as fp:
    fp.write(response.content.decode('gbk'))

3.分页—百度贴吧

方法:
	1.先找出分页的规律。一般是通过params参数中的其中一个参数来控制的。
	2.找到这个参数每一页的规律。
	3.用for循环来请求每一页的内容。

案例:贴吧

import requests
import os
base_url = 'http://tieba.baidu.com/f?'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}

kw = '易烊千玺'
### 自动创建文件夹
dirname = './tieba/'+kw
parent_dir = os.path.dirname(dirname)  ## 查找上一级目录
if not os.path.exists(parent_dir):  ## 判断指定目录是否存在,不存在就创建
    os.mkdir(parent_dir)
if not os.path.exists(dirname):
    os.mkdir(dirname)
### 循环爬取每一页
for page in range(1,11):
    pn = (page-1)*50
    params = {
        'ie': 'utf-8',
        'kw': kw,
        'pn': str(pn)
    }

    response = requests.get(url=base_url,headers=headers,params=params)
    with open(dirname+'/'+kw+'_%s.html'%page,'w',encoding='utf-8') as fp:
        fp.write(response.content.decode('utf-8'))

一些技巧

1、如何判断使用get方法还是post 方法

查看general里的Request Method

2.返回的有用包:查看type:xhr(异步),text/html一般是有用的

post请求

一般格式

response  = requests.post(
	url,   ## 请求的url
	headers = {},  ## 请求头,字典格式
	data={},### 请求数据字典
)

简单案例:百度翻译

import requests
import json   ## 处理返回的json数据

### 请求的url
base_url = 'https://fanyi.baidu.com/sug'
## 请求的数据
data = {
    'kw': kw
}
### 请求头
headers = {
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'Origin': 'https://fanyi.baidu.com',
    'Referer': 'https://fanyi.baidu.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest'
}
response = requests.post(url=base_url,headers=headers,data=data)
json_data = json.loads(response.text)
result = ''
for data in json_data['data']:
    result += data['v']
    result += '\n'
print(result)

关于post请求返回的数据说明

1.post请求一般得到响应内容是json数据。

2.处理json数据用到的模块就是json模块。
	json数据就是本质上就是字符串。
	json.dumps(python的list或者dict)---->(返回值)---->json字符串。
	json.loads(json字符串)------>(返回值)----->python的list或者dict.

3.response.json()---->可以直接将获取到的json字符串转化成python的list或者dict.
	response.json()只有requests模块才有

问题探讨:处理post请求的请求参数怎么解决换了请求参数就请求不到的问题?

也就是post请求的内容主要解决请求参数,就可以获取数据了。

思路就是
1、比对。比对data字典,哪些参数是不一样的。
2.想办法找到这些参数的生成原理。
一些参数可以存放:
	1.页面中。--都是固定写死。
	2.js中动态生成参数。
	3.可以通过ajax来获取一些

案例:有道翻译(js中动态生成参数)

解决方法:

1.通过输入不同关键字,找到请求返回的请求数据(Form data)中变化的数据
在这里插入图片描述

2.查找其他网页,找到包含这几个值的网页,分析来源

在这里插入图片描述

3.根据来源,做相应操作

salt = str(int(time.time()*1000))+str(random.randint(0,10))  ## 时间戳+随机数

sign = get_md5("fanyideskweb" + kw + salt + "n%A-rKaT5fb[Gy?;N5@Tj")  ## md5加密

ts = str(int(time.time()*1000))  ##时间戳

代码:

import requests
import time,random,hashlib

def get_md5(value):
    md5 = hashlib.md5()
    md5.update(value.encode('utf-8'))
    return md5.hexdigest()
base_url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
kw = 'word'
salt = str(int(time.time()*1000))+str(random.randint(0,10))
sign = get_md5("fanyideskweb" + kw + salt + "n%A-rKaT5fb[Gy?;N5@Tj")
ts = str(int(time.time()*1000))

data = {
    'i': kw,
    'from': 'AUTO',
    'to': 'AUTO',
    'smartresult': 'dict',
    'client': 'fanyideskweb',
    'salt': salt,
    'sign': sign,
    'ts': ts,
    'bv': '6463522ba46bac94c96fd37965fadc8d',
    'doctype': 'json',
    'version': '2.1',
    'keyfrom': 'fanyi.web',
    'action': 'FY_BY_REALTlME',
}

# proxies = {
#     'http':'http://117.30.112.19:9999'
# }

headers = {
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'Content-Length': '236',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'Cookie': 'OUTFOX_SEARCH_USER_ID=-1118531613@111.197.148.217; _ntes_nnid=c1819f6b2cea918022060eb2eb423301,1570871035552; OUTFOX_SEARCH_USER_ID_NCOO=1475724906.500016; JSESSIONID=aaawYSgzJ3iE6-PjTrr4w; DICT_UGC=be3af0da19b5c5e6aa4e17bd8d90b28a|; JSESSIONID=abcbcDpBVjhFLdShlur4w; ___rl__test__cookies=1572251724286',
    'Host': 'fanyi.youdao.com',
    'Origin': 'http://fanyi.youdao.com',
    'Referer': 'http://fanyi.youdao.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

response = requests.post(url=base_url,headers=headers,data=data)
print(response.text)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值