项目场景:
python3.8
问题描述:
对于python使用正则表达式获取html中内容
#处理文本 width="215" height="135" alt="海南美食-吴小胖海鲜加工店(第一市场店)"></a>
#抓取内容:吴小胖海鲜加工店(第一市场店)
#正则表达式封装
findTitle = re.compile(r'alt="(.*?)"</a>') #不可以匹配处理
findTitle = re.compile(r'alt="(.*?)"') #可以匹配处理
findTitle = re.compile(r'alt="海南美食-(.*?)"')#可以匹配处理
#抓取item中的对应内容
titles = re.findall(findTitle, item)
原因分析:
可能是python中re库中封装的规则
解决方案:
暂无