python中获取网页元素

python中获取网页元素


一、方法概括

  1. xml/html文本: 正则表达式re、xpath
  2. json文件:jsonpath模块、正则表达式re

二、通用方法

使用所有方法获取页面元素都是需要先请求获取数据(爬虫),对返回数据进行分析,获取数据通过 request.get/post ( … ) 方法,并接收返回数据。
  • 语法:
    response = request(url, headers=headers, proxies=proxies, ...)
    
    • 其中 response 是用来接收返回值的变量
    • url 为需要请求页面的地址
    • headers 是发送请求的请求头,一般必须添加 ‘user_agent’ 元素,其他选加
    • proxies 是使用网络代理来避免反爬,一般有 http/https/socks ,其中socks既可以使用 http 也可以使用 https

三、使用正则表达式re获取元素

1、获取 xml/html 或 json 文本 :

​ re正则表达式获取xml 或 json 文本时都需要使用 resuest 发送请求并接收数据

​ 然后用正则语法进行数据分析提取

2、re语法

1、re.match( ‘re语句’, str, flags=0 )

​ re.match 代表使用的re语句必须在字符串开头就匹配成功,否则就匹配失败;

​ 匹配成功返回匹配对象(element),失败则返回None。

2、re.search( ‘re语句’, str, flags=0 )

​ re.search 代表使用的re语句在整个字符串中匹配,匹配的到就匹配成功&#

  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值