0. 前言
移动舆情分析 MMA(Mobile Media Analysis)作为 mPaaS 对移动端产品覆盖上是一个有力的补充,在需求、发布、分析、运营等阶段都发挥着不可或缺的作用。
• 需求阶段,辅助市场调研、竞品分析、产品决策。
• 发布阶段,监控新版本用户反馈,第一时间了解用户的新版使用感受,收集需求;收集用户使用bug。
• 分析阶段,通过平台提供的指标趋势、事件分析功能,进行产品的监控和分析。
• 运营阶段,提供运营活动的传播效果和运营倾向监控。
复制代码
结合 mPaaS 的其他组件,能够更好地完成产品开发。下图为移动舆情分析(MMA)与 mPaaS 平台提供的功能在产品开发生命周期中发挥的作用示意图:
本文将从以下三个方面帮助大家了解移动舆情分析(MMA):
• MMA 是如何诞生的
• 现阶段 MMA 都提供了哪些功能
• MMA 的技术架构是怎样的
复制代码
1. 背景介绍:舆情监控的必要性
随着互联网的迅速发展,互联网已经成为了人们传播和获取各种信息的主要手段,每天都有大量舆情通过互联网进行传播,发酵,甚至构成舆情灾难。
网络舆情具备以下几个特征:
1、信息量大,数据分析困难
2、传播速度快,人为监控难以及时发现、遏制
3、个人观点情绪化,容易一边倒,引发公信力危机
2. 移动舆情分析(MMA)的由来
移动舆情分析(MMA)源于支付宝内部的 Anteye 舆情平台,对内服务了支付宝、蚂蚁财富、口碑、网上银行、AlipayHK 等重点产品在内的 100 多条业务线,及上千名阿里小二。
支付宝作为国民应用,每天在 App 内进行意见反馈的用户上万个,这上万条应用内反馈,包含了用户使用时遇到的问题,对体验的吐槽,以及用户辛苦写下的对产品的建议,为了让这些有价值的信息得到充分重视,更好地服务用户,所以诞生了 Anteye 舆情平台。
Anteye 致力于将各类反馈信息正确地分发给对应的角色,比如将产品问题按业务线分发给各业务 Owner,将有价值的用户体验的吐槽和产品建议分发给产品经理,将安全相关信息分发给安全同学等,并支持在平台上进行反馈的处理,处理结果可以选择性的回复给提交反馈的用户。对应用内反馈数据的分发、处理,拉近了用户和产品开发人员的距离,帮助改进产品,提升用户体验。
用户除了在 App 内提交反馈,还可能在各大应用市场对 App 进行评分,发表使用感受。所以后来接入了各大应用市场评论的数据,用于监控产品各版本在应用市场(部分应用市场等同于手机厂商)的评分表现,情感倾向和吐槽的话题。
后来 Anteye 增加了外部媒体舆情的采集、分析、监控能力。Anteye 关注的外部媒体主要分为三部分数据来源:微博、新闻媒体文章、微信公众号文章。对外部媒体舆情数据的分析,重点集中在负面事件的预警,以及重点事件的分析(趋势、情感、传播路径等)。预警机制帮助及时发现潜在舆情风险,争取到宝贵的处理时间,重点事件分析帮助了解事件从萌发到爆发的过程和重点渠道、链路。
MMA 将支付宝客户端反馈组件和 Anteye 舆情平台两部分融合成一个组件,提供了完整的数据采集、分析功能。
3. 移动舆情分析(MMA)平台功能介绍
MMA(Mobile Media Analysis)通过采集应用内、应用市场反馈及外部媒体等内容,经过机器学习、自然语言处理等大数据技术,为企业的产品迭代升级、运营、营销、公关提供实时、有效的“舆情监控-分析-预警-处理”的闭环能力,帮助企业发现并追踪产品问题,收集产品建议,危机公关,辅助市场调研、产品营销与竞争分析。
a、数据来源和分析
舆情分析平台 MMA 作为蚂蚁金服移动开发平台 mPaaS 的组件之一,致力于帮助用户开发、运营出更好的移动端产品,所以主要解决的问题包含了两个方面:
1、来自使用者的反馈分析:
-
数据分类:
- App 用户在客户端内的直接反馈
- App 用户在各主流应用市场对 App 的评价
-
数据特点分析:
- 来自使用者的反馈,主要为“产品 bug 上报、产品体验问题、产品优化建议和单纯的吐槽”。通过深度分析这部分数据,可以帮助产品及时解决 bug,改善产品体验,了解用户痛点和需求,产品 bug 和体验解决不及时可能引发用户舆论发酵风险。
2、来自社会舆论的反馈分析:
-
数据分类:
- 新闻资讯数据
- 微信公众号舆论数据
- 微博数据
-
数据特点分析:
- 社会舆论一般不针对 App 的具体功能,而是针对产品整体、所在企业和特定事件。由于这社会舆论数据量大,传播速度快,需要能及时预警,进行处理。
b、价值
下图为 MMA 主要针对的业务场景:
c、优势
1、相较一般舆情平台,支持应用内反馈、应用市场评价这两个和 App 密切相关的数据来源
2、支持“舆情监控->分析->预警->处理”的完整闭环
3、支持公有云部署和私有云部署双重部署方式
4、历经多年打磨的适用于舆情分析的自然语言处理技术
3. 系统架构
mPaaS 移动舆情分析 (MMA)系统总共包含 3 个部分:
1、舆情分析平台:对数据进行分析,整合后进行数据显示、订阅和预警
2、客户端反馈组件:提供用户在客户端提交用户反馈的功能
3、爬虫系统:爬取应用市场、微博、新闻媒体等数据
下图为三个模块的关系图:
下图为系统整体的功能模块图:
a、舆情分析平台
舆情分析平台为 MMA 的核心组件,将客户端反馈组件和爬虫系统采集来的数据进行存储、清洗、算法打标、模型计算、数据整合分析后,将有效的信息展示给用户。整个流程如下图所示:
- 数据存储模块
舆情分析平台将采集来的数据持久化到 Mysql 和 Mongo 数据库中,通过数据清洗模块进行数据的转换、垃圾过滤等清洗工作,然后转存入 Elasticsearch,以满足高效查询的要求。
- 算法服务模块
算法服务主要对数据进行自然语言处理, 对数据进行更贴合人类使用习惯的打标,方便数据分析、统计。
首先通过垃圾过滤技术排除无效数据,然后根据数据的各自特点分别进行处理。对于应用内反馈和应用市场评论数据,平台基于其文本短、表述意图单一的特点,使用新话题发现技术,将数据按照话题的维度进行分类,使用短文本情感算法进行情感标注。对于外部媒体舆情,平台基于其文本较长、表述方法多样的特点,使用相似度计算和文本聚类等算法,将同一事件的相关舆情筛选出来,同时使用长文本情感算法进行情感标注。
简单罗列上述提到的相关技术采用的基础算法:
- 新话题发现:通过 CRF 和语法树构建依赖分析
- 相似度计算:采用余弦、编辑、Simhash 等多种特征的相似度算法
- 垃圾过滤:采用 SVM 向量机、朴素贝叶斯的垃圾分类算法
- 短文本情感:基于情感词典和语义解析的情感分类算法
- 长文本情感:基于 Tensorflow 的 LSTM 情感分类算法
- 文本聚类:通过语义距离矩阵进行层次聚类
以上相关算法,如感兴趣可自行查阅相关资料,MMA 虽在通用算法基础上做了特殊化处理,但基本原理不变。下面我们主要介绍下短文本情感和**长文本情感****算法:
短文本一般表述的核心主题只有一个,所以只需要抓住核心词和核心情感词进行情感判断即可。MMA 平台的短文本情感算法通过构建情感极性词典(包含积极、消极、中性等情感词),结合语句的否定、反问等语义解析,形成情感公式去判断文本的情感偏向。该过程的难点在于情感词典需足够丰富、准确,及情感公式中权重系数的选择。
长文本在表达方式、中心思想上可能都比较复杂,核心词可能是多个,每个核心词对应的情感偏向也不一样,所以短文本情感算法不适用。MMA 平台使用基于 Tensorflow 深度学习框架的 LSTM(Long short-term memory)长短期记忆神经网络,训练大量的外部媒体舆情信息,进行情感的预测。首先进行数据清洗,去除垃圾文本和文本中的特殊符号、表情符号等,然后通过 Word2vector 模型转换为词向量,再通过截断或者补全的方式转换为等长的句子序列作为 LSTM 的输入进行训练,最后使用训练后的模型进行情感预测。该过程的难点在于数据清洗、模型的选取和模型调参,这里不再展开讨论。
- 数据计算模块
数据计算模块通过使用自定义的评分模型完成对单条数据的评分度量,通过自定义的热度模型实现对单个事件的热度度量,通过预置的规则或者用户定义的预警规则实现舆情预警。
- 数据展示模块
舆情分析平台按照数据类型进行指标展示,其中应用内反馈和应用市场评论数据,主要按照话题、情感、数量等维度进行趋势、分布分析;而外部媒体舆情以事件为切入点,分析该事件的热度、情感、重点原声、传播等。
b、客户端反馈组件
客户端反馈组件自带了一套集反馈收集、展示、处理完整流程的反馈模块,以便于用户从零开始快速构建应用内反馈的舆情分析体系。
如果客户 App 已经自带了反馈模块,MMA 也提供了接口来接收现有反馈模块收集的数据,从而快速使用 MMA 的舆情分析功能。
c、内容采集系统
内容采集系统采用分布式架构,将各重要功能服务化,提高系统的稳定性、扩展性和吞吐率。用户只需要进行简单的配置,即可完成数据采集功能。
调度中心会定时读取规则库,将需要采集的配置和微博更新的配置放入消息中心 MQ 中,采集服务和解析存储服务会持续监听 MQ,各自取出对应任务进行处理,最后将结果存入数据库中。监控中心负责整个系统的稳定性监控,采集数据的变化监控和新规则的配置。
采集服务支持基于 HttpClient 的同步请求获取和基于 Phantomjs 的 HTML 页面异步渲染结果获取,且为了应对反采集策略,支持 IP 代理,账号、Cookie 的切换。该服务对所在服务器的带宽要求较高。 采集服务和解析存储服务都支持横向扩展,可以通过简单的添加机器满足业务快速增长的需求。
4. 总结与展望
本文重点讲解了 mPaaS 移动舆情分析(MMA)在“舆情分析平台”、“客户端反馈组件”、“内容采集系统”三个方面的具体架构设计。同时 MMA 也在开发更多能够帮助用户更快发现、解决问题的功能,比如当前在研发中的基于日志分析的舆情问题快速定位功能:用户在应用内做了反馈,如果平台判定为是系统 bug,则会触发日志管理平台拉取用户设备日志,分析反馈上报期间的日志,并结合分析用户当时的网络状况、手机状况,快速给出该系统 bug 的可能原因。
在产品整合上,移动舆情分析产品同样支持和 mPaaS 产品体系以及企业内部系统实现深度打通与整合。
首先,舆情产品可以直接和 mPaaS 体系中的研发协同平台对接,由后者缺陷管理模块处理舆情问题并同步结果给舆情平台。其次,舆情产品还可以和智能投放产品结合,在投放前,通过舆情分析产品分析目标受众,使投放过程更具有针对性,在投放后,又可通过舆情产品监控活动在全网的传播情况。类似地,舆情分析也可以和企业内部的办公系统、营销系统等实现打通。
如果你对 mPaaS 移动舆情分析(MMA)感兴趣,欢迎进一步交流。
往期阅读
《蚂蚁金服 mPaaS 服务端核心组件体系概述:移动 API 网关 MGS》
《蚂蚁金服 mPaaS 服务端核心组件:亿级并发下的移动端到端网络接入架构解析》
《mPaaS 服务端核心组件:消息推送 MPS 架构及流程设计》
关注我们公众号,获得第一手 mPaaS 技术实践干货
钉钉群:通过钉钉搜索群号“23124039”
期待你的加入~