距离上篇爬虫有些久了,但不会缺席的~~~
昨晚去看了“我不是药神”,比较压抑,又感动,有悲愤,也有无奈,生命啊,请珍惜。
上次爬取了马蜂窝旅行都江堰景点的用户评论信息,比较杂,我们选取其中的用户ID、用户名以及用户评分,开始数据的清洗吧……
主要代码就三行:
pattern=r'<a class="name" href="/u/(.*?).html" target="_blank">(.*?)</a>.*? <span class="s-star s-star(.*?)"></span>'
items=re.compile(pattern,re.S|re.M).findall(ht2)
it=str(items)
承接上篇,我们转换得到了ht2,设置了正则表达式,注意有三个的分组,即三个(.*?),这就是我们所要获取的三组内容,具体的语法规则在之前的博客已经说了,正则这一块水还很深,刚踏出一小步……compile和findall方法也提到了