【思路】基于互联网电子产品评论的舆情分析

一、前言

        最近在一位研究生的带领下,在研究互联网电子产品评论的舆情分析。觉得这个项目挺有意义的,跟我感兴趣的大数据,数据挖掘这块也很沾边。也看了不少论文了,在此写点我的心得,以及整个project实现的思路。下面我将以某一手机品牌为研究对象。整个工程可以分为数据获取,数据预处理,评论情感分析,成果展示这四个方面。

二、数据获取

       数据来源的途径有很多,我将它分为两种,一种是现有的,其可能存储在数据库,txt,excel等中;还有一种是靠爬虫区爬取。如果你的数据来源是第一种,那么实在是太棒了,这一步几乎没有任何难度了。如果没有现成的数据,那么没办法,你只能通过爬虫去网上爬取,评论最多的网站当属淘宝,京东,亚马逊等大型电子商务网站了。不过你要实现一个这种网站的爬虫难度非常大,因为它们对爬虫都做了很多的限制,而且现在越来越多的网站采用AJAX来返回数据,使得你要去对JS去分析,京东的商品信息,好像就是通过JS生成的,无疑给开发者带来巨大麻烦。
       爬虫的实现的话,java,python等都不错,现在也有很多成熟的开源框架。这是我用scrapy,一个python的爬虫框架爬取亚马逊商品信息的博文,有兴趣可以参考下。scrapy爬取亚马逊商品信息

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值