html中按键值,从HTML中的script元素内部提取对象键的值

最新推荐文章于 2023-04-11 10:53:24 发布

weixin_39925413

最新推荐文章于 2023-04-11 10:53:24 发布

阅读量487

点赞数

文章标签： html中按键值

alecxe..

5

这总体上是一个有趣的问题 - 从HTML代码中的JavaScript代码中提取内容.

基本上,这意味着您首先需要进行HTML解析 - 找到所需的script元素并获取其文本.然后,第二步是从realty对象内部提取所需的数字.

如果您要使用正则表达式方法,您实际上可以重复使用正则表达式来定位所需script元素并提取所需变量(BeautifulSoup 允许应用正则表达式模式来查找/过滤元素):

import re

from bs4 import BeautifulSoup

html = """

window.realty = {"user_id":4243456};

"""

pattern = re.compile(r'\{"user_id"\s*:\s*(\d+)\}')

soup = BeautifulSoup(html, "html.parser")

script = soup.find("script", text=pattern)

print(pattern.search(script.text).group(1))

# prints 4243456

我们\{"user_id"\s*:\s*(\d+)\}在这里分解:

反斜杠用于转义在正则表达式语法中具有特殊含义的字符

\s*意味着 - 零个或多个空格字符(把它放在那里以防你:在对象定义中有额外的空格)

\d+ 表示"一个或多个数字"

括号定义一个捕获组 - 这是我们将字符串的特定部分提取到一个组中的一种方式,然后我们通过该组访问.group(1)

请注意,\d+@ Evyatar建议的简单表达式过于宽泛,您可能很容易得到误报.

以下是一些类似的主题,其中包含一些其他选项:

weixin_39925413

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
html中按键值,从HTML中的script元素内部提取对象键的值

alecxe..5这总体上是一个有趣的问题 - 从HTML代码中的JavaScript代码中提取内容.基本上,这意味着您首先需要进行HTML解析 - 找到所需的script元素并获取其文本.然后,第二步是从realty对象内部提取所需的数字.如果您要使用正则表达式方法,您实际上可以重复使用正则表达式来定位所需script元素并提取所需变量(BeautifulSoup 允许应用正则表达式模式来查找/...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。