python爬虫复习笔记

一,Requests模块

首先requests是第三方库,需先进行安装

1.发送get请求:

response = requests.get(url)

2.发送post请求:

res = requests.post(url,data = data)

3.携带请求头发送请求的方法

requests.get/post(url, headers=headers)

1.将cookie字符串转换为cookies参数所需的字典:
cookies_dict = {cookie.split(‘=’)[0]:cookie.split(‘=’)[-1] for cookie in cookies_str.split('; ')}
2.cookieJar对象转换为cookies字典的方法:
cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)
其中response.cookies返回的就是cookieJar类型的对象
requests.utils.dict_from_cookiejar函数返回cookies字典

4.通过params携带参数字典

requests.get(url, headers=headers, params=kw)

5.超时参数timeout的使用:超时参数timeout的使用方法:

requests.get(url, timeout=number)

6.proxies代理参数的使用:

proxies = {
“http”: “http://12.34.56.79:9527”,
“https”: “https://12.34.56.79:9527”, }
requests.get(url, proxies=proxies)

7.requests.session的作用: 自动处理cookie,即 下一次请求会带上前一次的cookie

requests.session使用方法:
session = requests.session() # 实例化session对象 response = session.post(url, headers, data...) response = session.post/get(url, headers...)

二,数据提取

在这里插入图片描述

1.re

2.json和jsonpath模块的使用方法:

jsonobj = json.loads(html_str)# 把json格式字符串转换成python对象
ret = jsonpath(jsonbj, 'jsonpath语法规则字符串')

在这里插入图片描述

3. lxml模块的使用:

导入lxml 的 etree 库
from lxml import etree
利用etree.HTML,将html字符串(bytes类型或str类型)转化为Element对象,Element对象具有xpath的方法,返回结果的列表
html = etree.HTML(text) 
ret_list = html.xpath("xpath语法规则字符串")

xpath定位节点以及提取属性或文本内容的语法:
 xpath定位节点以及提取属性或文本内容的语法

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值