通过Python提取文本中指定开始/结尾中的内容

今天,在爬取数据后,提取时,遇到了无法直接通过标签获取数据。

<ul class="key clearfix">
        <li>开 本:16开</li>
        <li>纸 张:胶版纸</li>
        <li>包 装:平装-胶订</li>
        <li>是否套装:否</li>
        <li>国际标准书号ISBN:9787115422699</li>
</ul>

比如说,我想要提取开本的规格“16开”。

解决方案:
后面,查询资料的时候发现通过正则表达式子,可以锁定提取的前后部分。具体操作如下:

import re

# 要提取的原材料
a = """<ul class="key clearfix">
        <li>开 本:16开</li>
        <li>纸 张:胶版纸</li>
        <li>包 装:平装-胶订</li>
        <li>是否套装:否</li>
        <li>国际标准书号ISBN:9787115422699</li>
    </ul>"""

# 想提取的内容假设为"16开",分析它前为本:,后为</li>;.在正则中表示可代表一切字符,+代表匹配前面字符 >=0 次,即规定前后里面的内容
formats = re.findall(r"本:(.+)</li>", a)
print(formats)  # 输出为['16开']
# 由于输出是数组,所以再次提出
format = formats[0]
print(format)   # 输出为16开
  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值