微博情感分析——数据的获取(一)

微博情感分析——数据的获取(一)

本人由于研究生的研究方向是自然语言处理、社会舆情分析这个方向的所以本科生毕业设计就选择了微博情感分析这一方向的题目。主要是完成情感分析这个功能,并把每一步流程都做到。本科生阶段可以说这方面实在知之甚少,所以随着毕业设计进行的过程我也会一直学习,并在这里分享我的学习过程及心得。

微博数据当然是基本了,我选择了python来爬取微博数据,因为整个系统的重点在分类器的训练,所以我只是在网上找了python的爬虫代码来做修改,但是其实没有很符合我自己想法的代码。

起初我的想法很简单只是想爬取选好的几十个人的全部微博,那么主要的代码只需要完成一个人全部微博的爬取就可以了,其实代码量很少。

爬取微博的网站选择的是手机端网站即http://weibo.cn,在登录自己的账号后获取当前的cookie,利用cookie模拟登录。这里要说一下,cookie虽然会变,但我觉得变化的时长还是很长的所以其实这种方法是我看这么多爬微博代码里最简单的了。其余的又去自动获取cookie,获取验证码手动填写的,这样的确实比较高级,但是由于我还是比较偷懒的所以就选择了看起来最简单的。

好了,说回来,一个人全部微博的网址很有规律,获取分页数量,页数递增即可,网页的解析我刚开始选择的是xpath,它很清晰和明了,一层一层的都能抓得到,所以说爬取个人全部微博可以说很快就运行成功了。

但之后我与老师交流,鉴于系统的扩展性等方面,数据的获取,微博的人群,应该得到哪些数据都是值得好好想想的。如何能大面积的爬数据?如何能爬到各个地区人的数据?最后我决定从一个人开始对他的粉丝进行广度遍历,爬取他的前多少的粉丝,再爬他粉丝的粉丝,这样扩展下去,设定一个值控制它的结束点。主要分三方面爬取,包括爬微博内容,包括发布时间,发布者的用户id,爬用户的信息,昵称,性别,地址等,最后将各个用户之间建立联系也就是爬取粉丝列表,这样也就是三张表完成了。我没有直接爬到数据库中而是爬到了Excel表中这样我看起来更加直观,代码也更好写。在确定想法之后我便重新开始修改我的代码。

后来的代码我选择了scrapy框架,因为我要爬到三个Excel表中也有可能后期直接爬到MySQL里面,所以scrapy还是很值得推荐的,个人认为。它的文件也不多,查了一下感觉功能分的还是挺清晰的。

啊,题外话,我也是没学过python的娃,边查边学吗,希望和大神们多交流~
具体后面我代码方法了用啥了什么的,下一篇再说哈~这不是经验贴,后面可能还会有一些问题想问同行们 ~感觉这样记录还是挺好的 ~

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值