python中获取网页元素

最新推荐文章于 2024-07-28 15:46:11 发布

Klein.Blue

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量1w

点赞数 3

分类专栏： python小笔记文章标签： python 正则表达式爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_15994257/article/details/120134065

版权

python中获取网页元素

一、方法概括

xml/html文本：正则表达式re、xpath
json文件：jsonpath模块、正则表达式re

二、通用方法

使用所有方法获取页面元素都是需要先请求获取数据(爬虫)，对返回数据进行分析，获取数据通过 request.get/post ( … ) 方法，并接收返回数据。

语法：
```
response = request(url, headers=headers, proxies=proxies, ...)
```
- 其中 response 是用来接收返回值的变量
- url 为需要请求页面的地址
- headers 是发送请求的请求头，一般必须添加 ‘user_agent’ 元素，其他选加
- proxies 是使用网络代理来避免反爬，一般有 http/https/socks ，其中socks既可以使用 http 也可以使用 https

三、使用正则表达式re获取元素

1、获取 xml/html 或 json 文本：

re正则表达式获取xml 或 json 文本时都需要使用 resuest 发送请求并接收数据

然后用正则语法进行数据分析提取

2、re语法

1、re.match( ‘re语句’, str, flags=0 ) ：

re.match 代表使用的re语句必须在字符串开头就匹配成功，否则就匹配失败；

匹配成功返回匹配对象(element)，失败则返回None。

2、re.search( ‘re语句’, str, flags=0 ) ：

re.search 代表使用的re语句在整个字符串中匹配，匹配的到就匹配成功&#

最低0.47元/天解锁文章

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
python中获取网页元素

python中获取网页元素一、方法概括xml/html文本：正则表达式re、xpathjson文件：jsonpath模块、正则表达式re二、通用方法使用所有方法获取页面元素都是需要先请求获取数据(爬虫)，对返回数据进行分析，获取数据通过 request.get/post ( … ) 方法，并接收返回数据。语法：response = request(url, headers=headers, proxies=proxies, ...)其中 response 是用来接收
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。