python爬取微博数据词云_python:爬取^Idol^微博记录,做成词云。(含代码)

2.14情人节,对单身狗来说就是折磨的日子,本着对自己的身心健康着想,我一天没出门,默默的爬取心目中的女神的微博记录。。。。。。。当然,女神不够,男的来凑,4aa545dccf7de8d4a93c2b2b8e3265ac0a26d216.png

OK。开始正题。

准备:python,request(请求url),re(正则), time(时间), tqdm(漂亮的动态加载),wordcloud(词云),jieba(分词), mayplotlib(画图展示),PIL(图像读取),numpy

因为只有登陆微博才可以爬取数据,否则用python得到的url页面不是原来的页面信息。而我没有这方面的高级姿势水平,所以我在网上搜索了一下。得出的结论是:首先手机端的微博数据比pc端的数据好怕,其次,需要得到一段微博服务器发过来的cookies,带着这个cookies才能畅通无阻。

好吧,手机端的问题很好解决,https://m.weibo.cn,打开就是手机端的微博了。

然后就是获取cookies。打开浏览器,这里我推荐firefox,在地址栏输入上面的网址,进入微博页面。按下F12,有些电脑则需要按Fn+F12, 或者在工具栏里点web开发者之类的,在点查看器。浏览器下方会弹出一个嗯....框框。。。,待会儿关注的是“网络”里的东西, 同时不要忘了吧“持续日志点上”,如果是英文的话应该是“。。。log”之类的。d719d40c13f8ea2a5e2dfd307acd80f7a2f28317.png

登陆你的微博账号,可以看到下面的框框里的数据变化,找到m.weibo.cn,点击,然后在右边的请求头里(header)找到cookie,复制下来,代码里会有用,注意要先全选,否则太长,中间会变成省略号。

看看想要爬取谁的微博了,刚才的页面,随便找一个人,点击他的主页,在地址栏中会看到有一个10位的数字,这个数字代表了账号在微博的代号。记录下来,代码里会用到。540b7c80bd2aa68bdf551a38f05366e5f4b4a691.png

然后就是爬取了,简单的不多讲,,,,,,

具体的解析部分,我一开始用的xpath,但是一直找不到正确的内容,弄了很久,我很恼火,所以直接暴力的上了正则表达式,幸运的是成功解析,哈哈哈,真是的小天才~~~~~~,解析的代码就只有一行,嘻嘻。。。

微博爬取成功,文本分析我做的很少,简单做了个词云。这个东西很有用,大家可以从我的代码里分离出词云的代码,也可以从上期中下载移植到其它的文本啊,都是很漂亮的。5cdc55362bfd3696b664c1656f72fcae93b677d1.jpg

话不多说:代码附上!

链接: https://pan.baidu.com/s/1M7-0i4AyTikCTnMxHwlcEw 提取码: pcbk

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值