这里写自定义目录标题
一,Requests模块
首先requests是第三方库,需先进行安装
1.发送get请求:
response = requests.get(url)
2.发送post请求:
res = requests.post(url,data = data)
3.携带请求头发送请求的方法
requests.get/post(url, headers=headers)
1.将cookie字符串转换为cookies参数所需的字典:
cookies_dict = {cookie.split(‘=’)[0]:cookie.split(‘=’)[-1] for cookie in cookies_str.split('; ')}
2.cookieJar对象转换为cookies字典的方法:
cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)
其中response.cookies返回的就是cookieJar类型的对象
requests.utils.dict_from_cookiejar函数返回cookies字典
4.通过params携带参数字典
requests.get(url, headers=headers, params=kw)
5.超时参数timeout的使用:超时参数timeout的使用方法:
requests.get(url, timeout=number)
6.proxies代理参数的使用:
proxies = {
“http”: “http://12.34.56.79:9527”,
“https”: “https://12.34.56.79:9527”, }
requests.get(url, proxies=proxies)
7.requests.session的作用: 自动处理cookie,即 下一次请求会带上前一次的cookie
requests.session使用方法:
session = requests.session() # 实例化session对象 response = session.post(url, headers, data...) response = session.post/get(url, headers...)
二,数据提取
1.re
2.json和jsonpath模块的使用方法:
jsonobj = json.loads(html_str)# 把json格式字符串转换成python对象
ret = jsonpath(jsonbj, 'jsonpath语法规则字符串')
3. lxml模块的使用:
导入lxml 的 etree 库
from lxml import etree
利用etree.HTML,将html字符串(bytes类型或str类型)转化为Element对象,Element对象具有xpath的方法,返回结果的列表
html = etree.HTML(text)
ret_list = html.xpath("xpath语法规则字符串")
xpath定位节点以及提取属性或文本内容的语法: