基于大数据的中文舆情分析

本文探讨了如何利用大数据分析和Hadoop平台进行中文舆情分析,通过微博数据提取用户兴趣,借助DB2 BLU数据库提升分析准确性。通过用户发布的微博内容进行语义分析,生成用户标签,为精准营销提供依据。整个流程包括数据获取、文本分析、用户肖像构建和营销策略制定,旨在提高推送信息的针对性和用户满意度。
摘要由CSDN通过智能技术生成

引言
社交媒体发展日益瞩目,博客、微博社交网络等悄然改变着人们的生活方式。微博,微信,包括天猫,京东等用户日益增多,用户主动发布的微博或者评论数量十分可观。在这个社会化的媒体时代,用户成为企业最好的品牌推广大使。如何从这些可观的数据中分析出用户的潜在且准确的购物意愿及用户需求,将成为提高品牌价值和声誉,改善用户体验的新兴途径。
曾有很多营销方法来向用户推送优惠或者打折信息,但准确程度十分低,甚至还出现错误推送及分析等。本文将通过数据分析和零售案例来说明中文舆情分析的可行性,基于 Hadoop 平台的文本分析以及大数据存储数据库 DB2 BLU(Big data,Lightening fast,Ultra easy),提高分析的准确度。

互联网舆情分析
背景
21 世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。社交媒体时代,通过互联网平台表达社情民意,体现用户的意愿,评论和态度。从古代的“防民之口甚于防川”,到如今的网络时代,“人人都有了自己的麦克风”。舆情,就是一个风向标。舆情分析,就是针对民众态度的收集和整理,发现相关的意见倾向,客观反映舆情状态。
海量的数据隐含着巨大的信息。例如亚马逊上的用户对某商品的评论,商家可以根据用户的评论和反馈为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的;例如新浪微博上粉丝过万的大型零售商等,也可以根据用户发表的微博,微话题,签到地点为用户定制性的推送优惠及新品信息。这些看似庞大无规则的数据,包含着大量的用户标签及潜在的用户肖像。
存储与分析中文文本数据也是技术上的关键,如何能够存储并分析海量数据,生成精确的用户标签,依赖于数据存储系统和文本分析系统的技术。本文的数据存储运用 DB2 BLU Acceleration,利用 DB2 BLU 速度快、与 Cognos 无缝结合的特性来存储和分析数据。中文文本分析基于 Hadoop 的文本分析平台,快速进行中文分词和建立标签词典,本文将在后面章节进行具体介绍。
中文微博数据分析逻辑
微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立自己主页,发布近期的打折、新品信息。但是,这些信息往往不能针对每个用户的喜好来发布,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。
但实际上,粉丝自身发布的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。
图 1. 营销分析逻辑流程
image001.jpg
如图 1, 显示了整个营销分析流程的逻辑。从客户发布微博开始, 到商家向用户发布商品目录和优惠信息,整个流程分为五个步骤:
首先,客户发布微博:本文从微博上初步获取的数据为“粗数据”,虽然数据杂乱需要分析,但是其中包含很多用户自己“无意识”的为自己打上的标签,这为后续的语义分析打下了基础。粗数据中包括类似于:性格、年龄阶段、星座、性别、突出喜好,例如“粉红控”、“80 后”、“篮球达人”等。掌握这些用户自定义的标签后,把这些作为用户肖像的一部分。
其次,获取商家的粉丝:商家的粉丝包括关注商家微博的用户以及签到用户被提及的品牌粉丝等。这些粉丝的发布的微博便作为语义处理的输入。
第三,分析用户的微博:将用户的微博进行语义分析。基于 Hadoop 的文本分析平台将对中文进行分词,分词后将与字典进行比较和分类,然后对比总结出该用户的兴趣爱好所在,作为用户的一个标签,同时作为客户肖像的一部分。例如,一个用户的微博中经常提到类似于篮球、足球等运动,那么“爱运动”就及可能成为其标签,作为客户肖像的一部分。
第四,指定相关营销策略:客户肖像制定后,存入数据库,并根据微博内容实时或定时更新客户肖像,根据客户的肖像,向用户推送相应的商品打折、优惠、最新上架产品信息。例如,用户的爱好中包括“运动”,并在微博中提到某品牌的运动鞋,那么可以向该用户推送该运动品牌的打折优惠信息或优惠券。
最后,消费者便可使用消费券或根据打折信息购买相关产品。这样向用户推送的促销信息会更加符合用户近期的购买意愿和用户的个性特征,可以做到为每个用户个性定制的营销方案,使推送更有效。下面,本文将针对整个系统的各个平台进行介绍。
方案架构
整个系统架构如图 2 所示,主要由文本分析系统、DB2 BLU 数据库以及 Cognos 数据分析工具组成。首先从互联网上获取数据以后,将原始数据送入文本分析平台进行分析,主要做中文分词、情感分析等工作;然后将文本分析结果整合后输出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值