import re
# 匹配门店消息
t = '''今年,XXX计划继续稳固成都本地市场,规划开出200家门店,在CCC市场成为领头羊,
并向全国市场布局,3年计划扩张近4000家门店,
aaa张近50000家门店。未来,XXX将继续加强对标准化连锁经营体系的探索,
侧重往加盟商体系发展,更多策略。'''
# 匹配中文汉字,大写和小写字母,数字出现一次和多次到门店的信息
r = re.findall(r'([\u4E00-\u9FA5A-Za-z0-9]+\d.*?门店)', t)
print(r)
# 输出结果
['规划开出200家门店', '3年计划扩张近4000家门店', 'aaa张近50000家门店']
HTML提取文本
hh = '<p>经过2年的产品打磨,XX数据目前服务于餐饮、零售领域30余家中腰部及以上连锁客户,包括XX小面、<a class="project-link">BMX</a>、MYJ、<a class="project-link" data-id="1679745561793283" data-name="西XX爷" data-logo="https://img.36krcdn.com/20220401/v2_52dace23e4f944b0b154b67f85180fef_img_000" data-refer-type="1" href="https://36kr.com/project/1679745561793283" target="_blank">西XX爷</a>、XX贝、邻JJ、XXLL悦喜、美JJJ美、<a class="project-link" data-id="1678511134749705" data-name="柚子" data-logo="https://img.36krcdn.com/20220331/v2_e35b2e5bf57a4f77811ee7f419ac5c83_img_000" data-refer-type="1" href="https://36kr.com/project/1678511134749705" target="_blank">柚子</a>电子烟等,覆盖10000余家门店,目前产品MVP已经跑通,正在搭建销售团队。现阶段主要面向一二线城市以直销为主,销售收入保持3-5倍的年增速。</p> '
# 使用匹配提取方式,此方式会有部分内容被丢弃
r = re.findall(r'<.+?>([^<].*?)<.+?>', h)
print("\n".join(r))
# 使用替换方式,将标签<>的内容替换为指定字符串
result, number = re.subn(r'<.+?>', '。', h)
print(result, number)