Request模块和Xpath

requests模块

1、安装
  1. Linux
sudo pip3 install requests
  1. Windows
  • 方法一
    进入cmd命令行 :python3 -m pip install requests
  • 方法二
    右键管理员进入cmd命令行 :pip3 install requests
2、requests.get()
  • 作用:向网站发起请求,并获取响应对象 res = requests.get(url,headers=headers,timeout = 10) # requests.post(url, headers=headers)
  • 参数:
    1、url :需要抓取的URL地址
    2、headers : 请求头
    3、timeout : 超时时间,超过时间会抛出异常
  • 响应对象(res)属性
    1、encoding :响应字符编码 res.encoding = ‘utf-8’
    2、text :字符串 string
    3、content :字节流 bytes
    4、status_code :HTTP响应码 404, 200
    5、url :实际数据的URL地址

xpath解析

1、定义

XPath即为XML路径语言,它是一种用来确定XML文档中某部分位置的语言,同样适用于HTML文档的检索

  • 匹配多路径(或)
    xpath表达式1 | xpath表达式2 | xpath表达式3
  • 常用函数
    1、contains() :匹配属性值中包含某些字符串节点
    2、text() :获取节点的文本内容

lxml解析库

1、安装-- 推荐去pycharm的setting里面安装lxml
sudo pip3 install lxml
  • 使用流程
    1、导模块 from lxml import etree
    2、创建解析对象 parse_html = etree.HTML(html)
    3、解析对象调用xpath r_list = parse_html.xpath(‘xpath表达式’)

  • xpath最常使用方法
    1、先匹配节点对象列表
    2、遍历每个节点对象,利用节点对象继续调用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Agatha方艺璇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值