用大数据文本挖掘来看“共享单车”的行业现状及走势

关注天善智能,走好数据之路↑↑↑本文作者:天善智能社区专家高长宽(运营喵是怎样炼成的)

欢迎关注天善智能hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学院、问答、找工作,一站式搞定!

天善智能社区博客:https://www.hellobi.com/u/yymzylc/articles

温馨提示:若图片看不清,可点击图片,即可看到高清大图。

2016年底以来,国内共享单车毫无征兆的就火爆了起来,彼时一张手机截屏蹿红网络---在这张截图上,24个共享单车应用的图标霸满了整个手机屏幕,昭示着共享单车市场抢夺大战的激烈和残酷。

再看看一组来自易观千帆的数据:共享单车领域两大巨头---摩拜单车和ofo近一年的客户端用户增长数据,二者的用户增长曲线别无二致,都是一路高歌,共享单车领域的火爆势头在短时间内不会遏止。

同时,在全国各大城市,在街头巷尾,在居民小区和创业园区,排满了各种颜色的共享单车,仿佛一夜之间,共享单车如“千树万树”的梨花一般,盛开到了泛滥成灾的地步了。

与此同时,各种乱象也是接踵而至,触目惊心:人为肆意毁坏单车、车身乱贴小广告、街上随意停放…

对于当下共享单车在互联网界的火热状况,笔者想从大数据文本挖掘的角度来做一番分析,主要是从海量的文本数据中找到有价值的讯息和观察视角,透过文本挖掘了解共享单车相关的热门话题潜在趋势

同时,笔者也希望把一些常用的文本挖掘方法介绍给大家,以便大家在做产品和运营的过程中能派上用场。对于文本挖掘的相关知识在这里就不赘述了,可以参考笔者之前写的两篇文章:《数据运营|数据分析中,文本分析远比数值型分析重要!(上)》、《在运营中,为什么文本分析远比数值型分析重要?一个实际案例,五点分析(下)》。

以下是本文的行文路线图和所涉及的文本挖掘方法。

1 数据采集和预处理

在数据采集部分,笔者想采集跟共享单车关联性强的文本数据,笔者没有去写爬虫去爬取数据,而是用到了新浪微舆情信息监测”中的“数据导出”功能,根据设置的关键词检索逻辑,将所有涉及到共享单车的各类媒体文章的标题、发布时间、媒体名称、正文及正文分词等数据下载下来,省去文本数据的清洗和预处理过程,直接进行文本挖掘部分。

在这里,笔者选取了市场上主流的25个共享单车品牌,再加上关键字“共享单车”,形成如下关键词检索逻辑

共享单车+(永安行 |小鸣单车 |小蓝单车 |智享单车 |北京公共自行车 |骑点 |奇奇出行 |CCbike |7号电单车 |黑鸟单车 |hellobike |酷骑单车 |1步单车 |由你单车 |踏踏 |Funbike单车 |悠悠单车 |骑呗 |熊猫单车 |云单车 |优拜单车 |电电Go单车 |小鹿单车 |小白单车 |快兔出行 |摩拜单车 | 绿游GreenBike)

笔者选取2017-3-1~2017-6-30之间的数据,经由上面的检索关键词,可以得到我们想要的数据,为节省时间,笔者仅选取“新闻”这一信息来源的文本数据作为分析对象,因为这部分的数据比较符合要求,包含的噪音较小。结果显示如下:

导出数据之后,结果如下:

上面圈红的字段是比较重要的分析维度,注意,导出的文章正文数据已经经过系统分词去停用词处理,直接省去了文本预处理所要耗费的时间。

笔者再对其中的数据进行去重处理---去掉“标题/微博内容”

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值