python爬虫复习笔记

ᴇvoʟ.彼得猪

于 2022-09-10 13:23:13 发布

阅读量502

点赞数 1

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_63385973/article/details/126795624

版权

这里写自定义目录标题

一，Requests模块
二，数据提取

一，Requests模块

首先requests是第三方库，需先进行安装

1.发送get请求：

response = requests.get(url)

2.发送post请求:

res = requests.post(url,data = data)

3.携带请求头发送请求的方法

requests.get/post(url, headers=headers)

1.将cookie字符串转换为cookies参数所需的字典：
cookies_dict = {cookie.split(‘=’)[0]:cookie.split(‘=’)[-1] for cookie in cookies_str.split('; ')}
2.cookieJar对象转换为cookies字典的方法：
cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)
其中response.cookies返回的就是cookieJar类型的对象
requests.utils.dict_from_cookiejar函数返回cookies字典

4.通过params携带参数字典

requests.get(url, headers=headers, params=kw)

5.超时参数timeout的使用：超时参数timeout的使用方法：

requests.get(url, timeout=number)

6.proxies代理参数的使用：

proxies = {
“http”: “http://12.34.56.79:9527”,
“https”: “https://12.34.56.79:9527”, }
requests.get(url, proxies=proxies)

7.requests.session的作用: 自动处理cookie，即下一次请求会带上前一次的cookie

requests.session使用方法：
session = requests.session() # 实例化session对象 response = session.post(url, headers, data...) response = session.post/get(url, headers...)

二，数据提取

在这里插入图片描述

1.re

2.json和jsonpath模块的使用方法：

jsonobj = json.loads(html_str)# 把json格式字符串转换成python对象
ret = jsonpath(jsonbj, 'jsonpath语法规则字符串')

在这里插入图片描述

3. lxml模块的使用：

导入lxml 的 etree 库
from lxml import etree
利用etree.HTML，将html字符串（bytes类型或str类型）转化为Element对象，Element对象具有xpath的方法，返回结果的列表
html = etree.HTML(text) 
ret_list = html.xpath("xpath语法规则字符串")

xpath定位节点以及提取属性或文本内容的语法：