微博评论数据爬取思路及代码分享

很久没有发帖了,之前做了有关微博的数据分析,现在将爬取微博评论的思路和代码分享出来,写得有些粗糙,欢迎批评指正。

一、获取bid和uid
就是网址https://weibo.cn/comment/KrsH5tpeY?uid=2000016880&rl=0&gid=10001#cmtfrm
其中KrsH5tpeY的bid,2000016880是uid
这个就可以将博文唯一地标识出来了。
二、爬取一个博文的评论数据
包括用户ID、用户名、评论内容和时间。
首先是单条评论数据。
观察到用户名和id是在同一节点,如<a href="/u/3173923450?gid=10001">兵卒在江湖</a>
然后依次确定评论内容和时间的元素节点。
之后获取本页的所有评论数据。
翻页操作是对网址中rl的值进行自增,0和1都是第一页。
三、批量爬取博文的评论数据
对若干个博文的bid与uid进行单个博文爬取程序的执行即可。

用户ID的关键代码:

user_ids=re.findall('<a href=".*?&fuid=(.*?)&.*?">举报</a> ',html_2,re.S)#从举报链接入手

用户名的关键代码:

names=[]#用户名
    ma=[ '举报', '赞[]', '回复']
    pattern = re.compile(r'\d+')#匹配数字
    for i in names_0:
        i=re.sub(pattern, "", i)
        if i not in ma:
            if '@' not in i:
                names.append(i)

评论内容的关键代码:

contents=[]#评论内容
contents_2=[]#评论内容初步
contents_0=re.findall('<span class="ctt">(.*?)</span>',html_2,re.S)#一级
contents_1=re.findall('<a href=.*?>@.*?</a>(.*?)<a href=.*?>举报</a> ',html_2,re.S)#二级

时间的关键代码:

times_0=re.findall('<span class="ct">(.*?)</span>',html_2,re.S)
times=[]#时间
pattern_1= re.compile(r'\d{2}月\d{2}日')#匹配日期

以上是大概的思路和关键代码,整个工程文件——微博评论、用户信息的爬虫程序已经上传至我的github,见https://github.com/stay-leave/weibo-public-opinion-analysis,欢迎大家star。
后续有时间还会继续分享主题分析等数据分析及可视化的内容,欢迎关注我。

  • 4
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灵海之森

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值