上次的爬虫最终获取了马蜂窝旅行评论页面的全部内容,其实很多都是无用信息,我们要进行筛选清洗,这就用到了正则表达式,在写爬虫后续之前先大概搞一下正则……
先上代码吧,今天先搞一小部分:
import re
print(re.match('you','you are my sunshine'))
print(re.match('you','you are my sunshine').span())
print(re.match('my','you are my sunshine'))
print(re.search('you','you are my sunshine').span())
print(re.search('my','you are my sunshine').span())
love='you are my sunshine'
pat=re.match(r'(.*) are (.*?) .*',love)
if pat:
print('获取的全部字符序列为:'+str(pat.group()))
print('获取的第一个分组为:'+str(pat.group(1)))
print('获取的