python正则匹配示例

import re


# 匹配门店消息
t = '''今年,XXX计划继续稳固成都本地市场,规划开出200家门店,在CCC市场成为领头羊,
并向全国市场布局,3年计划扩张近4000家门店,
aaa张近50000家门店。未来,XXX将继续加强对标准化连锁经营体系的探索,
侧重往加盟商体系发展,更多策略。'''

# 匹配中文汉字,大写和小写字母,数字出现一次和多次到门店的信息
r = re.findall(r'([\u4E00-\u9FA5A-Za-z0-9]+\d.*?门店)', t)
print(r)

# 输出结果
['规划开出200家门店', '3年计划扩张近4000家门店', 'aaa张近50000家门店']

HTML提取文本

hh = '<p>经过2年的产品打磨,XX数据目前服务于餐饮、零售领域30余家中腰部及以上连锁客户,包括XX小面、<a class="project-link">BMX</a>、MYJ、<a class="project-link" data-id="1679745561793283" data-name="西XX爷" data-logo="https://img.36krcdn.com/20220401/v2_52dace23e4f944b0b154b67f85180fef_img_000" data-refer-type="1" href="https://36kr.com/project/1679745561793283" target="_blank">西XX爷</a>、XX贝、邻JJ、XXLL悦喜、美JJJ美、<a class="project-link" data-id="1678511134749705" data-name="柚子" data-logo="https://img.36krcdn.com/20220331/v2_e35b2e5bf57a4f77811ee7f419ac5c83_img_000" data-refer-type="1" href="https://36kr.com/project/1678511134749705" target="_blank">柚子</a>电子烟等,覆盖10000余家门店,目前产品MVP已经跑通,正在搭建销售团队。现阶段主要面向一二线城市以直销为主,销售收入保持3-5倍的年增速。</p> '

# 使用匹配提取方式,此方式会有部分内容被丢弃
r = re.findall(r'<.+?>([^<].*?)<.+?>', h)
print("\n".join(r))

# 使用替换方式,将标签<>的内容替换为指定字符串
result, number = re.subn(r'<.+?>', '。', h)
print(result, number)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值