通过Python提取文本中指定开始/结尾中的内容

最新推荐文章于 2024-06-04 11:40:31 发布

weixin_41098099

最新推荐文章于 2024-06-04 11:40:31 发布

阅读量5.1k

点赞数 1

文章标签： python 正则表达式

本文链接：https://blog.csdn.net/weixin_41098099/article/details/105717531

版权

今天，在爬取数据后，提取时，遇到了无法直接通过标签获取数据。

<ul class="key clearfix">
        <li>开 本：16开</li>
        <li>纸 张：胶版纸</li>
        <li>包 装：平装-胶订</li>
        <li>是否套装：否</li>
        <li>国际标准书号ISBN：9787115422699</li>
</ul>

比如说，我想要提取开本的规格“16开”。

解决方案：
后面，查询资料的时候发现通过正则表达式子，可以锁定提取的前后部分。具体操作如下：

import re

# 要提取的原材料
a = """<ul class="key clearfix">
        <li>开 本：16开</li>
        <li>纸 张：胶版纸</li>
        <li>包 装：平装-胶订</li>
        <li>是否套装：否</li>
        <li>国际标准书号ISBN：9787115422699</li>
    </ul>"""

# 想提取的内容假设为"16开"，分析它前为本：，后为</li>；.在正则中表示可代表一切字符，+代表匹配前面字符 >=0 次，即规定前后里面的内容
formats = re.findall(r"本：(.+)</li>", a)
print(formats)  # 输出为['16开']
# 由于输出是数组，所以再次提出
format = formats[0]
print(format)   # 输出为16开

weixin_41098099

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
通过Python提取文本中指定开始/结尾中的内容

今天，在爬取数据后，提取时，遇到了无法直接通过标签获取数据。<ul class="key clearfix"> <li>开本：16开</li> <li>纸张：胶版纸</li> <li>包装：平装-胶订</li> <li>是否套装：否...
复制链接

扫一扫