爬取马蜂窝用户评论界面中的用户ID、用户名以及评分

16 篇文章 145 订阅 ¥9.90 ¥99.00
本文介绍了如何使用正则表达式和Python的compile及findall方法从马蜂窝的用户评论界面抓取用户ID、用户名及评分。通过设置正则模式,包括三个分组来匹配所需内容。同时讨论了不加括号的.*?如何影响分组结果。
摘要由CSDN通过智能技术生成

距离上篇爬虫有些久了,但不会缺席的~~~
昨晚去看了“我不是药神”,比较压抑,又感动,有悲愤,也有无奈,生命啊,请珍惜。
上次爬取了马蜂窝旅行都江堰景点的用户评论信息,比较杂,我们选取其中的用户ID、用户名以及用户评分,开始数据的清洗吧……
主要代码就三行:
pattern=r'<a class="name" href="/u/(.*?).html" target="_blank">(.*?)</a>.*? <span class="s-star s-star(.*?)"></span>'
items=re.compile(pattern,re.S|re.M).findall(ht2)
it=str(items)

承接上篇,我们转换得到了ht2,设置了正则表达式,注意有三个的分组,即三个(.*?),这就是我们所要获取的三组内容,具体的语法规则在之前的博客已经说了,正则这一块水还很深,刚踏出一小步……compile和findall方法也提到了࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

beyond_LH

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值