在练手爬取电影资讯网站,遇到过这样一种情况:
使用正则表达式进行提取豆瓣的电影信息的时候,想要提取电影的名称,但是发现这个页面中还有英文的标签:
如果采用 正则表达式
title_pattern =re.compile (r’(.+?)’)来匹配,会将所有中文和英文名字一起获取到
一种解决方法是通过获取完这些信息再进行筛选:
for ss in title_list:
if " / " in ss:
title_list.remove(ss