《科技传播》2019·7(下)100
信息科技探索
基金项目:江苏警官学院学生科学研究项目一般项目,项目编号为SJYX2017Y02。 作者简介:颜建弘,江苏警官学院。
基于大数据的多媒体舆情分析方法研究
颜建弘
摘 要 网络舆情研究的要点之一是如何在大数据时代从互联网海量信息中及时发现舆情并进行全面的分析,以判别 舆情的性质和发展趋势并对症下药地加以管控。但在目前复杂的互联网大数据环境下,网络舆情通常包裹在各种多媒 体形式的外壳中。文章在分析大数据及多媒体网络舆情概念和特点的基础上,将大数据处理技术应用到多媒体网络舆 情分析中来,研究基于大数据的多媒体网络舆情分析方法。 关键词 大数据技术;舆情分析;多媒体
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2019)239-0100-02
网络舆论就是在互联网上传播的公众对某一焦 点所表现出的有一定影响力的、带倾向性的意见或 言论[ 1] 。截至2018年12月,我国网民规模达8.29 亿,普及率达59.6%,较2017年底提升3.8个百分点, 全年新增网民5 653万。其中手机网民规模达8.17 亿,网民通过手机接入互联网的比例高达98.6%[ 2] 。 在如今的大数据网络资源环境下,各种网络新业务 和多媒体的发展普及为网民提供了更多样的信息发 布载体,微信、QQ、微博、新闻客户端、直播平台、 短视频平台、知识问答平台等使得网络舆情的表现 方式发展得更为多元化。
1 多媒体网络舆情特点和研究现状
多媒体网络舆情为社会公众和政府、传统媒体 构成的主体将对舆情客体的观点和态度加工成多元 外现的舆情本体,通过多媒体传播通道在大数据网 络空间中进行互动的总和[ 3] 。多媒体舆情信息文件 类型多样,传播快速而广泛,在大数据环境下具有 规模性、多样性、变化快速性、价值等4个特征。 多媒体舆情的复杂特性大大增加了以它为对象的舆 情分析的难度和工作量,当前对于多媒体舆情信息 的分析研究大部分仍集中在对低维度文本舆情的分 析上,而对于以图片、音频、视频等多媒体形式为 载体的高维度舆情信息的挖掘分析研究还比较少。 针对目前多媒体舆情的复杂性,采用传统舆情的识 别分析方式不易获得准确有效的信息,需要对舆情 信息的多媒体外壳在已有舆情分析研究方法的基础 上,结合大数据分析技术进行处理。
2 多媒体网络舆情大数据分析方法
目前,使用大数据技术处理数据时最常使用
Hadoop、MapReduce、Spark等分布式处理方式。而 最常运用的大数据分析方法主要分为两种,第一种 是基于人工经验建立分析模型,这种方法对人力、 物力资源的消耗较高,对数据的体量有限制,不能 高效率地处理巨大量的数据且无法迁移。第二种是 基于人工智能的大数据分析方法,其中最重要的技 术包含有机器学习、聚类、关联分析算法和卷积神 经网络等,这些方法适合于大数据量的处理,且数 据量越大精确度越高,但在提取分析动态多媒体数 据特征方面能力有限。目前较为新型高效的大数据 分析方法是基于无限深度神经网络(infinite deep neural networks,infinite DN Ns)的大数据分析,这是一种全互连的回复式神经 网络(recurrent neural networks,R NNs),神经元之间存在反馈连接,能够处理动态数 据[ 4] 。深度神经网络的学习算法通过调节神经元之 间的网络连接权值实现,其中比较经典实用的算法 有基于反向传播算法扩展的训练前馈网络BPTT 算 法,误差从前向后传播的RTRL(real-timer ecurrent learning)算法,以及Gers等人 提出的改进 “长短时记忆”(long short-ter mmemory)LSTM算法[ 5] 。本文主要以这种大数 据分析方法将高维度的多媒体载体信息转换为低维 度的文本信息加以处理。具体分析处理方法如下: 2.1 视频信息分析
当前流传在网络上的视频信息多为短视频形 式,生产流程简单、制作门槛低、制作周期短、民 众参与性强、传播度高。由于时长较短且背景音乐 多为网红歌曲片段且与视频内容关联不大,对短视 频舆情分析需侧重于对视频中的人物动作表情和文 字信息的识别提取。对于视频中的人物动作,可使
DOI:10.16607/j.cnki.1674-6708.2019.14.0541012019·7(下)《科技传播》
信息科技探索 用基于行为模板的方式获取不同动作的特征从而设 立各自的模板,实际使用时将捕捉到的动作与模板 进行匹配,以达到对各种行为进行准确地识别的效 果[ 6] 。通过镜头分割与分帧技术、关键帧提取技术 等将视频节选为图像。也可以使用基于LSTM的网 络模型处理复杂的视频序列,从传统的视觉特征或 深度特征中学习动态时序信息,然后识别视频序列 中的行为,并自动生成一个不定长的语句来正确地 描述视频内容。 2.2 音频信息分析简化
网络舆情分析中音频的有效信息可分为人类语 音信息和环境音。为更好地分析有用的音频信息可 使用Matlab的滤波器进行降噪预处理,之后利用 拉普拉斯变换、快速傅里叶变换等工具能对音频信 号进行时频分析;利用基于语音信号的梅尔频谱倒 谱系数对人类语音信息进行特征提取;对于环境音 可利用基于非平稳信号的经验模态分解法、局部均 值分解、极点对称模态分解等声音特征提取方法达 到特征提取的目的。在语音识别任务中,大数据技 术在音频转换方面通常使用自动语音识别技术和相 关算法,针对视音频处理模块统一转码重采样后的 音频流进行智能识别,将其中的语音内容转换为计 算机可以识别的文本字符信息[ 7] 。而无限深度神经 网络不仅能够记住上下文,有更高的识别精度,且 抗噪性能更强,能更为准确高效地将语音传译为文 字信息。 2.3 图像信息分析简化
目前网络中的图像信息多以新闻和自媒体文章 插图、电脑手机截屏图片、各类表情包等形式存在, 内容多为人物、文字对话。图像信息的分析识别主 要在于图像分割:通过对单个像素点或整个像素区 域的分析提取出图像的局部特征。传统方法常基于 聚类、小波变换、阈值、区域等进行图像分割,由 于关键信息比较复杂多变,以至处理效率不高。基 于多代表点近邻传播聚类的MSMEAP算法,可以有 效实现大数据图像的快速分割[ 8] 。对于经过分割处 理后的图像,无限深度神经网络的LSTM模型能学 习将单张图像的像素强度映射成一个语法正确的自 然语句,再结合人物动作、表情、文本、背景特点 等信息将图像赋予文本性质的描述。 2.4 文本信息分析
在网络文本舆情分析方面,文献[ 9] 提出了基 于网络日志数据挖掘的隐性舆情分析、基于社会网 络分析的舆情主体关系发现、关联不同领域数据进 行舆情分析以及基于网络民意调查的4种面向大数 据的舆情分析方法。文本分布式预处理可利用Map Reduce框架将文本集的分词、停用词去除以及文 本内的词频统计放置在Map阶段,将构造倒排索引 文件的任务设置在Reduce阶段以最大化实现并行。
此外,分析文本可使用jieba分词、THULAC 工具包、 NLPIR分词系统等技术进行分词预处理,提高分析 的效率和准确率。在此基础上,对舆情分析关键词 进行检索并通过结合上下文、挖掘词语之间的联系 来较快定位推文所属的范畴、解读文本信息所包含 的情感特征。从文本信息中识别出话题范畴、作者 观点情感,用户情感态度等等。通过分词技术和词 向量模型及其比较分析分析与谁相关、是否是舆情、 是否是负面、是否具有敏感含义等。
3 总结
目前的大数据环境为网络舆情分析管理提供了 创新高效的大数据技术和算法,同时也使网络舆情 分析面临着更复杂的挑战。在多媒体网络舆情分析 研究方面以应用无限深度神经网络为主,其他大数 据算法为辅的方式,将高维度的视频、图像、声音 信息转化为低维度的文字信息进行处理,实现语义 密集度由低到高的转变,从而实现多媒体网络舆情 分析的目的[ 10] 。当前对于多媒体形式的舆情信息分 析研究还主要集中在对于多媒体各个载体的单独分 析上,新兴媒体平台层出不穷,大数据技术对以多 媒体为整体的舆情信息挖掘分析的应用还有待于进 一步研究。 参考文献
[1]谭伟.网络舆论概念及特征[J].湖南社会科学,2003 (5):188-190.
[2]中国互联网络信息中心.第43次中国互联网络发展状况统计 报告[R].2019-02-28.
[3]黄微,李瑞,孟佳林.大数据环境下多媒体网络舆情传播要 素及运行机理研究[J].图书情报工作,2015(21):38- 44.
[4]张蕾,章毅.大数据分析的无限深度神经网络方法[J].计算 机研究与发展,2016(1):68-79. [5]Gers F A,Schmidhuber J,etal.Learning to fourget:Continual prediction with LSTM[J].Neural Computation, 2000,12(10):2451-2471. [6]KIM H,LEE S,KIM Y,et al. Weighted joint based human behavior recognition algorithm using only depth information for low-cost intelligent video-surveillance system[J].Expert Systems with Applications, 2016,45(C): 131-141. [7]骆京.基于人工智能技术的内容识别系统设计[J].现代电视 技术,2018(7).
[8]许晓丽,基于多代表点近邻传播的大数据图像分割算法[J]. 图学学报,2016(2).
[9]唐涛.基于大数据的网络舆情分析方法研究[J].现代情 报,2014(3):3-6,11.
[10]黄微,刘熠,孙悦.多媒体网络舆情语义识别的关键技术分 析[J].情报理论与实践,2019(1):134-140.
实践与经验
现代计算机2018.05上
环境下的企业主题网络舆情分析系统模型,并分析了 模型各个模块使用的关键技术:数据采集模块采用主 题爬虫,通过主题关键字过滤法,使获得的网页数据聚 焦于企业的主题相关;数据预处理模块对文本向量转 换为语义特征表示;舆情分析模块对采集的图片进行 内容识别,借助领域本体和情感本体进行基于语义的
分类和聚类处理,获取对企业舆情管理有价值的信 息。本文的舆情分析处理的重点在所涉及的文本信 息,对图像内容识别做了初步分析,但是对其他多媒体 信息、社会网络关系所包含的舆情信息的挖掘还有待 进一步研究。
Research on Enterprise Network Public Opinion Analysis System Model
Based on Big Data
YU Hong,HONG Ru-xia,SHI Wen-jin
(Department of Information Science,Yuzhang Normal College,Nanchang 330103)
Abstract:
With the development of network technology,especially the popularity of mobile Internet applications,ordinary people are paying more at⁃ tention to comment and supervision on social hot events through the Internet.Internet has become the main channel of social public opinion communication.At the same time,the massive growth of public opinion data on the Internet has also brought challenges to the public opin⁃ ion management department.Especially,if the important network public opinion information about some a company cannot be controlled in time,it will bring a great negative impact to the development of the company.Therefore,based on the analysis of the concepts and princi⁃ ples of big data and enterprise network public opinion,and based on the characteristics of enterprise network public opinion,constructs a corporate theme network public opinion analysis system model based on big data,and describes the functions of each part of the system. The distributed storage and parallel computing technology based on Hadoop platform is introduced into the analysis of enterprise network public opinion.With the help of ontology technology,the ability of semantic analysis of public opinion is improved,and the processing and analysis of enterprise network public opinion data under the big data environment is preliminarily explored.
Keywords:
Big Data;Enterprise Network Public Opinion;Hadoop;Ontology;Image Content Recognition
参考文献:
[1]王兰成.网络舆情分析技术.国防工业出版社,2014,10.
[2]王静婷,徐震.一种基于知识技术的网络舆情内容分析系统框架.图书情报导刊,2016,2. [3]梁循,许媛等.社会网络背景下的企业舆情研究述评与展望.管理学报,2017,6. [4]王宇.基于云计算的网络舆情热点发现研究.内蒙古工业大学硕士论文,2016,6. [5]梁循,杨小平,李志宇.社会网络大数据下企业舆情建模和管理.清华大学出版社,2016,2. [6]马梅,刘东苏,李慧.基于大数据的网络舆情分析系统模型研究.情报科学,2016,3.
作者简介:
余宏(1977-),男,硕士,副教授,研究方向为数据挖掘,数字媒体技术 洪如霞(1967-),女,硕士,教授,研究方向为教育信息化 史文津(1981-),男,硕士,讲师,研究方向为教育技术 收稿日期:2018-03-27修稿日期:2018-04-25
'/实践与经验
现代计算机2018.05上
海量网络舆情信息的工具,但网络舆情分析系统中各 个模块的作用及相互关系的逻辑结构还有待进一步 优化[1]。国内网络舆情系统在技术优势方面各不相
同,如中科天玑拥有国内最完善的汉语分词系统ICT⁃ CLAS,在自然语言处理和文本分析能力上具有优势; 北大方正的WISE知识处理系统,其文本处理能力很
强。存在产品功能类同,语义分析能力精度不高,以文 本分析为主而缺乏对图像、音视频等数据的关联分析 等问题。国外在舆情分析技术方面的研究主要集中在 调查问卷数据分析、文本数据自动分析、舆情感情色彩 分析、复杂社会网络系统等方面。国外免费上网企业 舆情监控软件的功能重点在信息搜索上,通过搜索监 控与企业相关的网络信息来得到舆情结果,典型的如
Google Alerts是Google的新闻定制自动发送工具,用
户可以用它来跟踪一些新闻报道、业界动态等信息。
Twitter搜索软件可以帮助企业搜索以获取Twitter中有
关企业的各种信息。
2相关理论 22.1大数据
对于大数据的概念,还没有一个统一的定义。一
个用得比较多的提法是:大数据(Big Data),指的是所涉
及的数据规模大到无法通过当前主流的软件工具在合 理时间内达到获取、管理、处理并整理成为帮助企业经
营决策更积极目的的资讯,具有量大(Volume)、产生速 度快(Velocity)、数据类型多样(Variety)、价值密度低 (Veracity)等特点[2]。
海量数据处理是采用分布式方式来解决的,Ha⁃ doop是一个成熟的、被广泛应用的分布式系统。Ha⁃ doop是一个开源的软件体系、允许用户自己修改代码、
硬件成本投入低等特点,同时能支持海量数据存储和
计算任务。HDFS是一个高度容错性的分布式文件系
统,为用户提供流式的数据读写服务,有利于提高了系 统的数据吞吐量,故特别适合于大数据应用。
MapReduce是一种分布式软件编程框架,遵循“分
而治之、移动逻辑、屏蔽底层、处理定制”的设计思想。
把大规模数据拆成N个数据块部分,由一个主节点将 MapReduce函数分发到各个数据块的分支节点机器上
并行计算,然后通过合并各个分支节点的结果,得到最终
结果,该处理过程被高度抽象为MapReduce的map()和
reduce()两个函数,map(映射)负责对每个部分数据进 行分析,reduce(归纳)负责把各个结果汇总起来,这种
并行计算方式极大提高了数据处理的速度。
22.2企业网络舆情的概念
关于舆情,没有一个统一的定义,不同的学者对此 定义的侧重点不同,一个较全面的定义是刘毅在《网络 舆情研究概论》中的描述:“舆情是由个人以及各种社 会群体构成的公众,在一定的历史阶段和社会空间内, 对自己关心或与自身利益紧密相关的各种公共事务所 持有的多种情绪、意愿、态度和意见交错的总和[3]。”
网络舆情是社会舆情的一种具体表现形式,它是 由网络言论发展而来的,但网络言论能否发展成为网 络舆情在很大程度上依赖于网络言论议题是否具有强 烈的活跃性和敏感性,其发展过程存在着网络言论由 潜在舆情向显性舆情转化的关键阶段,网络的开放性 和隐匿性为潜在舆情提供了公开表达的场所[4]。网络 舆情信息多元、传播快捷、方式互动,具有传统媒体无 法比拟的优势,网络舆情既有积极健康的一面,同时也 有消极颓废的一面,如果我们对初露端倪的不良舆论 苗头进行有效抑制,就可以掌握网络舆论引导的主 动权。
企业网络舆情则是网络舆情范围的进一步缩小, 限于跟某个企业主体相关的舆情内容,是广大网民在 特定的时期和网络空间内,对特定企业发生的某个产 品生产、或服务提供的事件,通过网络表达的多种情 感、态度和意见的集合。
22.3企业网络舆情的特点
随着互联网对人们生活影响的逐步深入,企业越 来越重视与自己相关的网络舆情传播对自身形象的影
响。网络博客、社交网络平台(论坛、微信、QQ等)、网
络新闻评论,以及电子商务平台是企业网络舆情传播 的主要渠道。
越来越多的企业开始重视企业自身的口碑在网络 舆情传播中的重要作用。包括网络新闻媒体、社交网络
平台(微博、微信、QQ等)以及电子商务平台。企业网络
舆情具有网络舆情的一般特征:舆情信息存在空间的虚 拟性;舆情传播的实时性;网络参与主体发表、传播和反 馈舆情信息的交互性;互联网结构的开放性所决定的企 业网络舆情传播方式的开放性等。企业网络舆情在管 理上与社会网络舆情又存在着明显的不同:
',实践与经验
现代计算机2018.05上
(1)舆情数据采集:即从互联网中抓取与企业舆情
事件相关的数据,形成目标数据集。
数据采集完成从网络信息资源中获取页面数据的 工作,数据抓取过程中解决的主要问题是网络爬虫的
实现以及优化,具体包括Deep Web下载、网页脚本解
析、爬行策略控制等。相对于通用舆情系统,企业舆情 系统所关注的信息面比较窄,往往集中在和企业相关 的信息,因此,我们将数据采集过程中获得的原始数据 通过“主题关键词过滤”算法进行过滤。具体包括以下 几步:
①网络爬虫根据初始URL集合对相关新闻门户
网站、论坛、大众点评网、微博平台等进行爬行并下载 相关的网页。
②对爬取的原始页面按“主题关键词过滤”算法进
行过滤,得到主题相关的页面。
③在本地对每个网页进行解析分块,过滤掉无用
信息块后将有效信息块的信息保存到数据库,将块内 文本和图片分别保存起来。
由于网络舆情系统需要对多个不同网络社群的网 络页面进行采集,这在大数据环境下数据处理工作量 非常大、而且数据集中存储的压力也很大。我们可以
利用Hadoop技术将舆情数据采集和初步的预处理过
程(例如分词、关键词统计等)从舆情计算中心分散到
各个网络社区计算节点上,基于HDFS文件系统构建 HBase分布式存储系统存储舆情数据,利用MapRe⁃ duce来处理HBase中的海量数据。 (2)数据预处理:网络舆情的载体主要是网页中的
文本及图片等信息,因此,企业网络舆情信息预处理主 要包括以下任务:
①网页解析与分块。首先利用网页中的空间特
征、内容特征及标签信息对网页进行分块,然后对分块 的结果进行识别合并,最后过滤掉无用信息块后将有
效的信息块保存到数据库。利用Eclipse开发工具,扩 展Heritrix中的页面分析与信息抽取中的Extractor组 件来实现网页内容的解析和网页的分块,为基于DOM
分块的特征项权重计算提供依据。
②特征选择与语义特征转换。采用改进的N Gram的特征项选择方法对主题网络舆情Web文本进
行特征选择;然后在舆情信息特征选择的基础之上,采 用语义特征抽取转换的方法得到企业主题网络舆情
Web文本的语义特征。
③页面相关度计算。把经过分块过滤后的页面以
特征词文本向量的形式进行表示,计算企业网络舆情 主题库中的特征向量和页面文本向量间的相似度,从 而确定相关页面。
(3)企业主题网络舆情分析模块:主要完成企业主
题网络舆情话题检测、话题追踪、倾向性识别等功能。
舆情信息聚类子模块:该子模块是主题网络舆情 话题检测的主要技术实现手段,采用基于语义的主题
网络舆情信息聚类方法对采集得到的Web文本进行
自动聚类,得到舆情话题。
舆情信息分类子模块:该子模块是主体网络舆情 话题追踪的主要技术实现手段,在舆情信息聚类的基 础之上,采用基于语义的主题网络舆情信息分类方法
对采集到的Web文本进行自动分类,得到与已有话题
相关的后续报道,并将其归入已有的话题之中。
情感倾向性识别子模块:采用基于情感本体的主 题网络舆情倾向性分析方法对企业主题网络舆情进行
倾向性识别,得到Web文本的褒贬倾向类别。
图像内容的识别。有研究表明,有图像的微博、微 信转发率要明显高于纯文字的,因此,要分析企业的网 络舆情,图像舆情是不可或缺的。图像内容识别的困 难在于从图像像素中提取的视觉特征和用户对图像内 容的含义的理解之间存在语义鸿沟。为消除语义鸿 沟,对图像识别分类器中的图像训练数据通过人工的 方法标注类别信息标签,然后新图像在经过图像识别 分类器处理后自动添加上所属类别的语义标签。在这
里,将企业的LOGO图片、企业领导照片、企业名称等 图片作为训练数据,利用SIFT算法对图像特征进行提 取,然后应用SVM分类器实现对新收集的图片进行分
类并标注语义信息。
Sipo-Ontology管理维护模块:采用基于本体的主 题网络舆情知识模型构建方法创建Sipo-Ontology,并
对其进行管理维护。
情感Ontology管理维护模块:采用情感本体构建 方法创建情感Ontology,并对其进行管理维护。 (4)舆情报告与预警:利用相关的工具和技术对网
络舆情分析模块挖掘出来的知识进行文字或图形化的 表示,并根据分析结果对企业网络舆情管理的实践提 供决策参考。
4结语
本文在分析大数据和企业网络舆情相关概念和技 术的基础上,根据企业网络舆情的特点构建了大数据
'.现代计算机2018.05上实践与经验
现代计算机2018.05上
(1)在网络信息处理范围上:企业网络舆情管理仅
针对网络上与企业自身利益相关的舆情信息进行处 理。因此,在从舆情信息源获取原始信息时,可以有针 对性地进行信息过滤,大大减少了企业舆情管理系统 的信息处理量。
(2)在语料的积累和交互历史的积累上:在社会网
络中企业与客户的交互往往集中在企业的官方微博、微 信公众号、企业产品销售平台及行业论坛,所以很容易收 集积累的语料;而政府级的舆情管理往往缺少相应的语 料,因为舆情事件发生时,网民的留言是比较分散的。
(3)在舆情管理的时效上:企业网络舆情往往因某
个突发事件致使其在短时间内大规模的传播与爆发, 而且其影响会立刻传导到企业的生产和销售业绩上, 因此,企业对网络舆情进行监控与管理的时效性方面 要求比较高。而政府对社会舆情的管理相对来说所涉
及的范围更大,对网络舆情进行正确引导的时间相对较 长,舆情产生的影响力更加平均,因此,政府对社会舆
情管理的时效性的要求不如企业舆情管理高[5]。
(4)在靶向目标方面:企业舆情管理有较强的靶向
性,主要针对的是企业相关的人群,包括客户、合作伙 伴、主要竞争者、潜在目标客户等。而政府级的社会舆 情管理针对的是整个国家的、全方位的舆情管理,与企 业相比广度更宽,靶向性较企业较弱。
(5)在舆情的处理方式上:企业舆情管理偏向于积
极的运用和发挥,而政府级的舆情管理则偏向于监督 和防范。具体来说,企业舆情一般是对企业品牌的口 碑、竞争对手动态、行业状况和热点事件等内容进行信 息的收集、汇总分析及进一步的传播,进而达到商业盈 利的目的。而政府级的社会舆情管理则注重利用网络 及时发现对国家利益产生不利影响的信息及时进行监 管和处理,把对社会造成的不利影响降到最低。
3模型设计
在大数据背景下,企业网络舆情数据具有分布广泛、 数据类型多样化、数据体量大、产生速度快等特点,对企 业网络舆情分析系统模型的设计提出了挑战[6]。企业网 络舆情管理系统在大数据背景下应该满足如下要求:
(1)舆情信息获取的全面性。企业网络舆情信息
来源广泛,作为数字化记录的用户内容,可能以文字、 图片、视频等形式分布在相关新闻网站、论坛、销售网
站、点评网、聊天平台中,而且这些内容在大数据环境 下增长非常快,为使获取的企业网络舆情信息比较全 面,需要采用并行搜索技术和大数据处理技术。
(2)舆情信息获取的针对性。企业网络舆情信息
管理系统相对社会舆情系统而言,所关注的信息面的 广度比较窄,只关心与企业有关的主题信息。因此,为 提高系统的效率,需要对系统爬取的信息进行过滤。
(3)舆情信息处理的时效性。由于企业的舆情常
常因为某一突发事件的触发导致在短时间内大规模的 爆发与传播,因此,为减小舆情对企业业绩的不良影 响,留给企业进行舆情管理和控制的时间非常短。
网络舆情分析包括通过网络爬虫等工具从互联网 上采集信息开始到最后将获取的舆情信息服务于舆情 管理的一系列流程,首先从网络上采集舆情数据资源,
对采集得到的Web页面等数据进行预处理,抽取其中
的关键信息,然后将关键信息进行建模并通过相关算 法进行内容上的分析,最后将分析结果提供给用户[3]。 因此,结合上述要求进行企业网络舆情分析模型的设
计,设计的基本原则包括:利用Hadoop大数据平台和 HDFS及MapReduce技术实现企业网络舆情海量数据
的存储与处理,提高企业舆情处理效率;对反映企业舆 情的文字、图片等信息能够自动采集、处理和分析,并 及时发现企业舆情热点。企业网络舆情分析模型的信
息处理流程总体设计如图1所示。
图1基于大数据的企业主题网络舆情分析系统模型
'-
貌以山、水、阳光、园林、桥梁、工业等为主,整个城市沿江而建,其 城市显得蜿蜒、绵长,城市风貌的地标建筑和公共娱乐空间最初 主要集中在市政府所在地的炳草岗商业圈,而目前又出现了一些 新的地标性建筑,比如攀枝花·中国三线建设博物馆、奥林匹克 中心、苴却砚、万象城、炳草岗大桥等。这些地标性建筑勾勒出了 攀枝花城市风貌的基本线条,塑造了攀枝花的城市特色。 由于特殊的地域文化和城市风貌,造就了攀枝花人的性格 与山水的性格融合在一起,性格开朗、豪迈奔放、敢说敢干、有一 股不服输的干劲,也铸就了攀枝花人吃苦、耐劳、拼搏、奉献的攀 枝花精神。
(二)攀枝花地域文化对其城市形象的提升有着极大的促进 作用
改革开放以来,随着经济的发展,攀枝花的城市建设中也得到 了长足的发展,地域文化对其城市发展也有着一定的促进作用。 攀枝花·中国三线建设博物馆的建成是为纪念三线建设50 年而修建,主要展示了当年涉及三线建设的建设过程、成就、历 史意义及时代价值,而苴却砚博物馆是攀枝花开发建设50周年 的重点献礼工程项目之一。这些建筑的建设促进了攀枝花经济 的发展,也是为了满足了广大市民对文化生活和艺术审美的需 要,同时也继续和弘扬了三线建设的精神,保护了攀枝花的历史 文化财富。三线建设博物馆、苴却砚博物馆、迤沙拉民族文化村、 花舞人间、格萨拉等具有地域文化的建筑和旅游景区为攀枝花 吸引国内外游客起着不可替代的作用,为攀枝花的旅游发展、经 济繁荣和对外文化交流和宣传做出了巨大的贡献。 攀枝花政府正在挖掘特有历史文化资源,着力打造阳光康
养产业。比如其境内的新、旧石器时代遗址(回龙湾旧石器时代 洞穴遗址)、战国时代遗址(营盘山古军营遗址、白马田坝大石 墓)、元明清遗址、建筑和墓葬(明代西祝寺,挂榜清真寺、近、现 代代表性史迹和建筑(大田会议旧址、米易湾丘“五、七”干校旧 址)等。通过整合这些资源,将自然景观与人文景观相结合,丰富 了攀枝花的旅游文化资源,提升了攀枝花的城市文化的人文素 养和其城市的吸引力,为打造旅游、休闲、养老、疗养等为一体的 阳光康养产业提供了丰富的自然和人文资源,使其对城市经济 的发展更具潜力,有力地提升了攀枝花的城市形象。 结语
攀枝花由于地处偏远的西南地区,再加上都是山区,交通落 后,其地域文化具有多元性,但其影响力有限;城市发展也由于位 于河谷地段,地势狭长,再加上以工矿业为主,所以经济相对单一 而滞后。所以,攀枝花的城市管理者们应该整体布局、统筹规划、 共同推进攀枝花的协调发展,着力打造攀枝花的地域文化,让它 更好地为攀枝花的城市政治、经济、文化和旅游发展战略服务。 参考文献:
[1]中共攀枝花市委党史研究室编《攀枝花大观》中国图书出版 社,2007.11.
[2]挖掘利用独特历史文化资源助力攀枝花阳光康养产业发展. 攀枝花市公众信息网http://rd.panzhihua.gov.c 作者简介:
彭正良(1967-),男,汉族,重庆潼南人,副教授,四川大学硕士研 究生。研究方向:英美文学与文化。
摘要:随着时代的进步,以及社会经济的快速发展,大数据一词在当今社会被提到的次数越来越多,尤其是从2012年开始。现 今已经是大数据的时代了,大数据的重要性也越来越高,尤其对企业而言,企业未来的发展都取决于数据,以后企业都将依靠大数 据的分析来进行企业发展策略的修正。 关键词:大数据;餐饮业;消费者行为
中国消费市场大数据分析报告
王文聪洪一鸣 (福州外语外贸学院福建福州350202)
———以餐饮行业为例
一、什么是大数据
要分析中国消费市场大数据,以及根据大数据分析消费者 消费情况从而制定决策的相关内容,我们首先要知道何为大数 据。大家将根据许多信息判断所得出的一系列数字的组合称之 为大数据。例如,淘宝根据用户平时的购买行为及购买偏好所得 出的一系列数据被称为大数据。
如今已经是“大数据”时代,无论是在商业、教育、医疗亦或 是在其他领域中,还是在其他需要做出决策的事情当中,人们将 不再像以前一样根据自己的经验及直觉来做出决策而是根据数 据和分析做出决策。现在不仅是大数据时代,更是高科技时代, 在这个时代中,高科技在快速发展,而大数据也随之出现了,大 数据在时代的发展过程中,使得越来越多的人去关注它的到来。 (一)全球数据量产生规模分析
随着社会的快速发展,人们也意识到了大数据的重要性,并
且在各个领域中都有所应用。无论是在教育、商业领域,还是在 医疗、互联网发展领域,大数据都占了一席之地。甚至于各大企 业现在都在利用大数据发展一些新的事物和新的领域,使大数 据与互联网相结合,在发展大数据的同时也使互联网时代有了 更大的进步。例如如今出现的电子商务、O2O互联网+等无一不 利用大数据进行发展。这些大数据与其他领域相结合发展的趋 势,更是不显露出大数据在当今时代的优势。许多企业还根据大 数据分析创立新的运营模式,开阔新的发展领域。不仅如此,还 有很多企业根据销售信息来得出大数据,并对此进行分析来判 断消费者的行为偏好,从而更加了解消费者,更好地制定销售策 略;他们还根据产品的销售量以及消费者的消费情况进行分析, 预测出产品销售量并且确定销售范围从而制定相对应的决策, 大数据的出现让企业更加方便快捷的获得利润。 随着大数据热度的不断增长,“大数据”这一名词曾多次出
075经营 版
2019.04 行业视角>>> 现在报纸杂志、网络媒体等各类平台网站,而且在美国白宫官网 的新闻中也曾经出现。在中国,无论是一些有关互联网的讲座, 还是一些互联网相关的比赛,如电子商务大赛、互联网+比赛,或 者是在一些嗅觉灵敏的证券企业的投资推荐报告中,大数据这 一词总是频频出现,而它们所出现的次数之频繁,规模之大,已 经不是G或者T所能衡量的了。那么大数据到底有多大呢? 数据正在飞快的增长,增长速度也越来越迅猛。不仅如此, 2015年全球数据总量较2012年相比增加了5.8ZB,由此可见数 据增长速度之快。如果以这样的增长速度继续发展,那么全球的 数据总量达到50ZB则指日可待。从2012年起,随着“大数据”一 词出现次数的增多,人们对大数据的重视程度也越来越高,并且 不断将其运用在实际生活中。 (二)全球大数据市场规模分析
现如今,大数据不仅仅出现在各个领域,并且开阔了新的领 域,大数据的应用使企业实现了智能决策,这是大数据为企业所 带来的好处。大数据发展很快,可是在此过程中,也不断出现问 题,当然在面对这些问题时,各大企业也有了很好的解决方案, 这样更是使大数据发展有了更强动力,而大数据也已经逐渐成 为企业发展过程中所不可缺少的重要部分。 在这个互联网时代,不仅各个企业、领域很看重对大数据的 发展,而且国家对大数据的发展也极为看重,并且给予支持;投 资家也越来越喜欢对大数据进行投资,因此导致大数据发展之 迅猛,其市场规模也在不断扩大。在2015年全球大数据市场规 模达到了421亿美元。同比增长了47.7%。如果以此速度继续增 长下去,在两三年以后,全球大数据市场规模可能将突破3000 亿美元。
(三)全球大数据市场结构分析
中国各地从2014年开始,大数据发展速度便开始加快,而 各个行业也开始将大数据应用于自身的发展中,促使中国的市 场规模也有所增加。
目前行业解决方案、计算分析服务、存储服务、数据库服务 和大数据应用在全球大数据市场中所占的市场份额较大。它们 都是市场份额排名比较靠前的细分市场。行业解决方案所占市 场份额当之无愧排名第一,并且它所占比例是排名第二计算机 分析服务的两倍还要多。为什么行业解决方案所占市场份额那 么多?其实原因显而易见,企业在通过数据统计、数据分析后可 以得出问题,从而对自身不足进行改善,进而解决问题。 二、大数据对消费者行为进行分析 在以前如果想要了解到消费者的思想行为、消费水平或者 兴趣爱好等,都是通过一些传统老旧的方式进行了解,例如企业 会通过分发调查问卷让消费者填写、或者其他传统的方式来了 解消费者,从而制定相应的策略。但是随着互联网时代的发展, 消费者更倾向于网上购物,而消费者在网络上的浏览记录及对 各个网站的访问量,在各个页面的停留时间等数据都将被采集, 从而判断消费者的爱好等。
随着大数据的快速发展,我们现在已经从互联网时代转变 为大数据时代了,而网络平台也越来越多,并且各不相同,不同 消费者的兴趣爱好也大不相同,所以企业需要多方面的对消费 者数据进行统计分析。无论是在购物网站、社交平台、游戏终端 等多个方面的信息,还是其他平台上的信息,都需要对数据进行 记录,然后进行分析判断,从而得出最合适的营销策略。
现今各个企业都已经掌握了消费者的兴趣爱好、消费习惯 及消费意图等相关信息,他们已经可以找到数据源,如移动终 端、搜索引擎等,对企业来说,消费者的心理已经被他们所掌握。 所以企业可以更准确、更容易的做出相应的营销策略判断。 现在许多企业都已经将大数据应用其中,他们将从网站获 取到的消费者相关数据作为参考来制定相应的策略。这些数据 包含了消费者在线浏览网站记录、购物途径、在线交易等数据, 企业将这些数据进行收纳,筛选出那些有价值的数据,然后进行 分析,这样可以提前对消费者的需求及行为有深入的了解,方便 企业根据其消费偏好为其推荐更适合他们的商品或方案。 三、大数据分析对餐饮行业的影响 作为其第三产业的重要组成部分。大数据对餐饮行业也有 着很大的影响。改革开放之前,人们都以“有东西可以吃”为满 足,但是在改革开放以后,随着人们生活水平的提高,人们对 “吃”有了更高的要求。这不仅体现在食品安全方面,而且对其新 鲜程度、味道口感也有了更高层次的需求。从改革开放至今,我 国餐饮行业无论是从服务水平,还是质量安全方面也都有了极 大的提高。餐饮行业作为传统服务业的主要行业之一,它的发展 前景一直很好。
在餐饮行业中,根据消费者对其差评的不同原因分析,商家 可以更好地进行改善。根据中国饭店协会、零点餐饮行业研究中 心,发布的《中国餐饮消费需求市场大数据分析报告》,可以看 出,2016年各个维度的差评率较2015年相比有明显降低,说明 消费行业在通过大数据分析得知2015年差评率后,在服务、口 味、态度等方面都有了很大的改善,从而使消费者对其的满意程 度有所增加。虽然2016年各个维度的差评率较2015年有所降 低,但是2016年的差评率还是不够低,对此企业应加大力度,更 加努力地对各方面进行改善,从而提高消费者满意度,降低差评 率。至于如何更好地改善,更好地吸引消费者,还需要餐饮行业 的从业人员慎重思考。 结语
在这个互联网时代,大数据的发展已经占了主导地位,它的 应用已经涉及各个领域,随着大数据的发展,我们也已经进入了 大数据时代。大数据为人们带来了新的思维方式,如今人工智能 也已经出现,相信大数据与人工智能的结合一定可以创造出不 一样的新世界。 参考文献:
[1]Dentsu Beijing Network Interaction Center,AISASModel— Reconstructing the Consumer Behavior Patterns inthe Internet Era,Modern Advertising,2007.
[北京电通网络互动中心,AISAS模式—重构网络时代的消费者 行为模式。现代广告,2007年。]
[2]CHEN Peiai,The Principle of Advertising(SecondEdition), Shanghai:Fudan University Press,2008. [陈培爱,广告学原理(第二版),上海:复旦大学出版社,2008年。] [3]CHENG Shi’an,Understanding the Behavior of weibo “Fans",CEIBS Business Review,2011,(11):34-38. [4]Paco Underhill,Why We Buy:The Science of Shop ping--Updated and Revised for the Internet,the Global Con sumer,and Beyond,Simon&Schuster,2008. 076
企业大数据能力提高大数据工作水平。目前国内外有关 厂商纷纷推出与大数据服务相关的产品。如甲骨文公司 推出了Oracle大数据机最大程度帮助用户管理海量数据 快速提供一个具有高可用性的可扩展系统; IBM推出最新 数据库软件DB2 10和InfoSphere Warehouse10能够轻松集 成大数据系统自动将数据压缩成更紧密的空间以防止 存储蔓延并且将过去、现在和未来的信息进行分离以 清除某些程序代码。 4∙5 健全信息组织和信息制度
在大数据环境下为了提高企业大数据能力就必须 要建立决策参谋式的信息组织结构其业务流程要规范、 科学业务功能划分要明确业务部门设置要合理尤其 要突出数据挖掘和智能分析在组织功能中的重要地位。同 时企业必须要针对大数据及其工作的特征结合企业大 数据工作实际制定科学、合理、操作性强的系统化的企 业信息制度在具体企业大数据实践中要严格按照相关 制度来执行加大制度的执行力。 4∙6 优化企业大数据支撑平台
企业大数据能力的提升是建立在企业先进大数据支撑 平台基础之上因此现代企业要加大对大数据支撑平台 的建设构建先进的大数据技术支撑平台。优化企业的内 联网和外联网积极建设企业各种管理信息系统及集成化 信息系统积极开发和上线大数据技术产品优化企业大 数据支撑平台为企业大数据工作提供良好的技术支撑 优化企业知识开发管理和利用能力。文献[10]指出:大 数据核心分析能力的影响不仅存在于数据管理策略、数据 可视化与分析能力等方面从根本上也对数据中心IT基础 设施架构甚至机房设计原则等提出了更高的要求。为了达
到快速高效的处理大量数据的能力整个IT基础设施需要 进行整体优化设计应充分考量后台数据中心的高节能性、 高稳定性、高安全性、高可扩展性、高度冗余基础设施 建设这5个方面同时更需要解决大规模节点数的数据中 心的部署、高速内部网络的构建、机房散热以及强大的数 据备份等问题。
参考文献 [1 ]李奕.大数据应用方式:从数据服务、信息服务到知识服务 [N].中国计算机报2012-07-09(24). [2]周渝唯奕.大数据———企业运营中的新资本[J].信息与电 脑2012(11 ):19-21.
[3]云计算环境下大数据及其智能处理技术[EB]. http:∥ wenku. baidu.com/view/b20357b065ce050876321384.html. [4]李佳师.大数据:观念影响速度[N].中国电子报2013-05 -31 (5).
[5]杨托尼.利用大数据创造竞争优势[N].中国计算机报 2012-10-15(23).
[6]郭伟广.改革企业营销模式提高企业竞争力[J].现代商 业2012(18):27.
[7]王海燕.营销战略是企业竞争力的核心[J].现代营销:学苑 版2010(10):16.
[8]师大伟.企业竞争力的核心———市场营销[J].河北冶金 2004(1 ):53-56.
[9]甘绮翠.大数据能力的关键影响因素[J].销售与市场 2013(4):22.
[10]大数据的核心在于数据分析能力[EB]. http:∥ www.stor- age.com/stor- age/2013/0111/2140090.shtml.
(本文责任编辑:马 卓)
(上接第6页)
依靠语义分析而是更求诸于自动化的数据分析;不再仅 仅是对部分数据集的精确分析而是涵盖多个数据集的关 联分析。我们还要拓展网络舆情数据的收集方式将分析 系统自动产生的数据发展到主动地、精准地收集舆情数 据。为保障网络舆情大数据分析的安全和可持续开展我们 还要解决可能涉及的隐私问题以及推动数据的公开和共 享。这些都将是面向大数据的网络舆情分析的潮流和趋势。
参考文献 [1 ]孟小峰慈祥.大数据管理:概念、技术与挑战[J].计算机 研究与发展201350 (1 ):146-169. [2]刘毅.网络舆情研究概论[M].天津:天津人民出版社 2007:51-53.
[3]张嵘.大数据时代舆情分析对媒体增值服务的可行性[J].中 国传媒科技2012(11 ):34-36. [4]陈忆金曹树金陈少驰等.网络舆情信息监测研究进展 [J].图书情报知识2011 (6):41-49.
[5]谢海光陈中润.互联网内容及舆情深度分析模式[J].中国 青年政治学院学报2006(3):95-100. [6]罗婷李成.如何开发舆情监测产品———人民网舆情监测室的 运作模式[J].中国记者2010(6):52-54. [7]Big data [EB/OL]. http:∥ en.wikipedia.org/wiki/Big●data2013 -04-26.
[8]李广建杨林.大数据视角下的情报研究与情报研究技术 [J].图书与情报2012(6):1-8. [9 ] Google趋势[EB/OL]. http:∥ www.google.com/trends2013- 04-26.
[10]甘晓.大数据成为信息科技新关注点———访中国工程院院士 李国杰[N].中国科学报2012-06-27(A1 ). [11 ]罗家德.社会网分析讲义[M].北京:社会科学文献出版 社2010:179-193.
[12]维克托·迈尔-舍恩伯格肯尼斯·库克耶.大数据时代 [M].盛杨燕周涛译.杭州:浙江人民出版社2013:220 -223.
(本文责任编辑:孙国雷)
— 11 —
2014年3月
第34卷第3期现代情报Journal of Modern InformationMar∙2014Vol∙34 No∙3仅要接受多样化的数据还要善于利用多样化的数据将 不同领域数据关联起来进行分析。
将用户职业数据、地域数据、年龄数据、专注领域等 和社会网络数据结合起来可以分析出不同的舆情热点在 哪些职业、哪些地域、哪些年段、哪些团体中传播广泛 这对于更有针对性地进行舆论引导意义重大。
将网站新闻数据、论坛数据、博客数据、微博数据等 进行对比可以分析出舆情热点在不同舆论场的传播速度 和广度从而掌握哪些舆论场更易于传播哪类舆情。
还可以将舆情分析的数据与外部数据联系如将食品 安全问题舆情数据与相关食品的销售数据相联系就能反 映出舆情对企业经营的巨大影响。将网络谣言传播与造成 的社会后果数据相联系可以反映谣言的巨大破坏力;辟 谣的引导性舆论发布后再动态监测相关社会数据可以 看出舆论引导的效果。 3∙4 基于网络民意调查的舆情分析
政府要进行舆情分析只被动接受网络舆情数据是远 远不够的还需要走出去主动收集数据了解全社会对 某项政策的评价。
现代意义上的民意调查实践起源于19世纪美国对总统 大选的预测发展到今天已经延伸到对各类社会现象的调 查且方法成熟。21世纪后我国才开始重视民意调查。 2003年中国人民大学进行了第一个全国性的大型社会调 查项目“中国综合社会调查”将人们对社会热点事件和其 他人群的看法作为调查内容。2006年9月我国才成立了 第一个、也是目前惟一的国家级专门的民意调查机构——— 国家统计局社情民意调查中心。目前我国互联网用户的 人数、手机持有量都位居全球第一这些都是网络民意调 查的大数据来源。可见我国缺乏的不是可供收集的数据 和收集数据的手段而是收集数据的意识。只有主动地进 行网络民意调查化被动分析为主动收集才能更有针对 性地满足对舆情的需求也更准确地掌握舆情动向。 4 需要注意的问题 4∙1 数据的安全性
在进行大数据分析时隐私是个大问题。在大数据时 代数据的价值很大一部分体现在二次分析上由于二次 分析的结果未知所以在收集数据前进行“告知”和获 得“许可”就不一定能起到绝对保险的作用。我们需要设 立一个不一样的隐私保护模式这个模式应该更注重数据 使用者为其行为承担责任而不是将重点放在收集数据之 初取得数据所有者的许可。这样数据使用者就需要基于 其对数据所有者造成的影响对涉及数据再利用的行为进
行评测。此外我们还需要发明并推行新技术方式来促进 隐私保护一种途径是故意将数据模糊处理促使对大数 据的查询不能显示精确的结果而只有相近的结果这就 使得挖出特定个人与特定数据点的联系变得难以实现并且 耗费巨大[12]。
大数据的挖掘与利用应该有法可依。2012年底我国 全国人大通过的加强网络信息保护的决定就是一个好的开 始。现在很多机构和企业拥有大量客户信息。应当既鼓励 面向群体、服务社会的数据挖掘又防止侵犯个体隐私; 既提倡数据共享又防止数据被滥用。此外还需要界定 数据挖掘、利用的权限和范围。大数据系统本身的安全性 也是值得特别关注的要注意技术安全性和管理制度安全 性并重防止信息被损坏、篡改、泄露或被窃保护公民 和国家的信息安全。 4∙2 数据的可获取性
要想提高大数据分析的效果可获取的数据量是关键。 大数据时代传播形式的多元化使得数据分布在不同的传 播终端如一条新闻的网民评价可能分布在众多移动新闻 客户端的用户评价中;再如微信中用户对社会事务的意见 是一种处于半封闭圈群中的数据非好友用户难以获取。 这些问题都给设想基于大数据的网络舆情分析带来难题。 除此之外政府掌握着社会的大多数信息而网络舆情分 析还需要网站、运营商等企业的数据所以政府和企业应 该加强合作共享数据。一些经过隐私保护处理后的数据 还可以向全社会开放以供企业、学术界和各社会群体进 行研究促进创新性应用。 4∙3 数据的代表性
网络舆情大数据源于互联网的开放、共享但我们不 能仅仅凭借技术构建的大数据平台去打捞那些可能代表一 个群体或一定数量级的“沉默的声音”。因为如果他们与网 络隔绝或者由于“沉默的螺旋”心理效应而不提供任何数 据那么我们所精心分析出的网络舆情实际上是不全面的 以此来指导社会管理是有偏差的。因此我们在进行舆情分 析的时候网络舆情大数据只是一个方面而非全部。 5 对未来的展望
随着网络技术和应用的不断创新网络舆情在不断发 生变化面对数亿网民和浩如烟海的网络大数据环境我 们需要不断扩大网络舆情分析的内涵从分析显性舆情内 容拓展到分析隐性舆情、舆情主体间关系、舆情子群体、 舆情对社会的动态影响等更广义的舆情分析。我们要不断 改进舆情的分析方法网络舆情分析不再仅仅是采样分析 而是要开始关注大数据分析;不再仅仅是(下转第11页) — 6 —
2014年3月
第34卷第3期基于大数据的网络舆情分析方法研究Mar∙2014Vol∙34 No∙3上进行问卷调查。这种方法通过设计问卷、抽样调查、统 计分析等一整套科学程序能够客观地推论社情民意。这 种方法应用广泛许多网站在新闻网页下方设置新闻评论 功能和读者态度倾向调查新华网、人民网等网站在近年 全国两会期间专门进行关于民众关注热点的网络舆情问卷 调查一些网站还针对国家重大事件和社会热点进行网络 调查。
在基于统计规则的模式识别方面有学者通过统计分 析某段时间内用户所关注信息点的记录构建了互联网内 容与舆情的热点/热度、重点/重度、焦点/焦度、敏点/敏 度、频点/频度、拐点/拐度、难点/难度、疑点/疑度、粘 点/粘度、散点/散度等10个分析模式和判据[5]。
在基于内容挖掘的主题监测方面流程有3步:信息 提取(包括信息采集、结构化数据存储);信息预处理(包 括信息过滤、词法分析、句法分析、概念分析);舆情分析 (包括文本标示、主题发现、意见挖掘、倾向分析)主要 进行话题识别。近年来浅层分析技术出现相关研究开始 关注网络舆情的情感倾向。这种方法的核心技术包括搜索 引擎技术、信息组织技术、自然语言处理技术等。
同时市场上还出现了不少网络舆情监测分析软件 知名的有人民网舆情监测平台、拓尔思网络舆情监控系统、 方正智思互联网舆情监控系统、邦富互联网舆情监控系统、 军犬网络舆情监控系统等。以人民网舆情监测平台为例 网络舆情信息采集系统可对传统媒体网络版、新闻网站、 论坛、博客等进行全天候定向抓取信息还可利用百度、 谷歌、奇虎等搜索引擎进行信息补充并进行关键词、关 注度、转载率等统计分析。但这些舆情监测系统擅长的是 抓取新闻网页在网络社区中如BBS、博客、微博、QQ 群、新闻跟帖等则效果有效网络社区中的舆情主要依靠 人工分析[6]。
在传统数据时代我们分析舆情走势时往往比较关 注网民的言论而忽视有多少人持此意见;往往重视解读 文字内容而忽视网民互动的社会关系网络。 2 网络舆情的大数据特征及分类 2∙1 网络舆情的大数据特征
大数据是指无法在一定时间内用常规软件工具进行抓 取、管理和处理的数据集合[7]其在数据体量、复杂性和 产生速度3个方面均大大超出了传统的数据形态具有4V 特征:规模性(Volume)、多样性(Variety)、变化快速性 (Velocity)、价值(Value)。对当前网络舆情状况的观察可 以看出互联网的开放性使数量庞大的网民和各种社会群 体可以在网上方便快捷地发表观点这使得网络舆情的数
据量急速增长。其次多媒体的发展使网络舆情的数据形 态既有文本又有图片、音频、视频等呈现出多样性特 征。再次现代社会价值观念多元各种观点交流交融交 锋舆论多元多样多变网络舆情变化快速。各种因素共 同作用使得网络舆情数据越来越呈现出大数据特征。 2∙2 显性舆情和隐性舆情
当公共事务发生后网民在浏览、搜索、互动的过程 中会随时发表言论信息这些信息直接呈现了网民的情绪、 态度、意见可以被称为“显性”网络舆情大数据。
此外还有一些数据并不是直接的网络舆情内容但 却从侧面客观反映了网民的关注热点、舆情主体之间关系 等可以被称为“隐性”网络舆情大数据。如网民在浏 览相关信息时网站服务器端的日志记录了浏览页面URL 等数据在搜索相关信息时搜索引擎服务器端的日志记 录了搜索关键词等数据可以反映用户的浏览偏好和搜索 热点。网络社区用户之间互相“加关注”成为“粉丝”服 务器端记录的人际关系数据能够描述用户构成的社会化网 络。用户之间互相转发和评论帖文所形成的转发量和评论 量数据可以反映帖文的重要程度。 3 网络舆情大数据分析方法创新
网络调查方法主要是进行采样分析其结果精确性随 着采样随机性的提高而提高与样本数量的增加关系不大 也就是说样本的随机性比样本的数量更重要但实现这 样的随机性非常困难以至于如果抽样对象是互联网用户 这样的复杂和海量对象时就很难找到一个“最优抽样” 的标准更不可能奢求抽样得到的小样本能够精确反映整 体的所有特征。
基于统计规则的模式识别方法具有有效性但由于不 同信息源的信息产生方式有较大差异该方法适用于对特 点对象进行定点监测有一定的局限性。
基于内容挖掘的主题监测方法主要针对“显性”网络 舆情大数据从现有的实践来看由于受限于当前语义分 析技术的精确度和速率语义支持的缺失仍然是普遍存在 的问题一些工具难以有效地处理复杂的人类语言和不断 变化的网络语言而且对大规模数据分析的支持也较弱[8] 仍然需要大量采用抽样分析和人工分析。而人工分析又具 有很强的定性化色彩所以不少舆情分析报告经常使用 “普遍表示赞成”、“不少网民认为”、“少数网民持反对态 度”等定性化的语言舆情分析的准确性难以进一步提高。
因此要不断创新网络舆情大数据分析思路。一是绕 开语义分析的技术瓶颈开辟“隐性”舆情分析的“第二 战线”;二是突破抽样分析的思维用大数据方法分析收集 — 4 —
2014年3月
第34卷第3期基于大数据的网络舆情分析方法研究Mar∙2014Vol∙34 No∙3到的全体数据;三是将搜索数据、点击数据、人际关系数 据、网民个人特征数据、相关社会数据等关联起来进行分 析深度挖掘出有价值的舆情。四是主动进行网络民意调 查有针对性地收集标准化数据。具体有以下几种方法。 3∙1 基于网络日志数据挖掘的隐性舆情分析
当网民关注某公共事件而去浏览或搜索相关信息时 会在网站服务器端产生浏览日志或搜索日志。浏览日志中 记录了网民IP地址、浏览时间、网页URL地址等数据可 以通过分析日志统计某地区、某时间段内的浏览热点 许多网站推出的“舆情热点排行榜”就是这方面的应用。
搜索引擎后台的搜索日志记录了网民IP地址、搜索时 间、搜索词、被点击的结果网页URL地址等数据。通过统 计分析用户的搜索词及搜索频率可以发现网民的关注点 及其热度;对一段时间内与某个社会事件相关的搜索词进 行词频统计可以描述网民关注点的产生和变化过程。
目前一些搜索引擎公司已经研发了通过搜索日志挖 掘发现网络舆情的技术和应用。谷歌公司开发的“谷歌趋 势”应用能统计某个关键词在一定时间段内某个地区被搜 索的次数将其与谷歌上随时间推移的搜索总量及当地的 搜索总量相比较得出该关键词的“相对搜索指数”并将 较长一段时间内的相对搜索指数描绘出来以预测未来趋 势[9]。一个成功的应用是谷歌制作发布的全球20多个国家 的“流感趋势”。设计人员编入一系列与“流感”相关的关 键词包括“流感”、“温度计”、“发烧”、“咳嗽”等。当 用户输入这些关键词系统就认为可能与“流感”发病相 关继而跟踪分析并作出相对搜索量指数图。通过对以往 指数的变化情况预测未来趋势进而预报流感发病率。谷 歌“流感趋势”在测试期间就表现出良好的预测效果比 美国疾病控制中心提前7~10天公布美国流感预报且与 官方公布的预报数据高度吻合显示了基于搜索日志大数 据进行预测的前瞻性和准确性。 3∙2 基于社会网络分析的舆情主体关系发现
中国工程院李国杰院士认为“数据背后是网络网络 背后是人研究网络数据实际上是研究人组成的社会网 络”[10]。互联网上不同主体间的互动形成很多社会化网络 以微博为例用户之间互相关注、转帖、评论假设用户 乙关注了用户甲则可以画一条由甲指向乙的有向边表 示甲发布的信息可以自动传递给乙。将所有用户之间互相 关注的关系都画成有向边整个微博舆论场就成为一个有 向图每个用户就是一个节点每个“关注”就是一条有 向边所有人际关系数据最终全景展示了整个社会化网络。 这些舆情主体间频繁联系、相互影响在这个过程中涌现 出一些威望和地位较高的舆论“意见领袖”他们左右着其 他主体的舆论方向最终影响整个舆论场。同时关注点
相似的舆情主体间也自觉或不自觉地形成了一些联系相对 紧密的子群体在子群体中信息传播速度更快。要管理和 引导网络舆情就必须对网络舆情主体和舆论子群体进行 研究而社会网络分析方法就是有效的手段。 “社会网络”的概念由英国人类学家布朗于20世纪30 年代在研究社会结构时首次提出到20世纪70年代社 会网络分析方法在社会学、心理学、人类学、数学、信息 学等领域逐步发展起来。目前社会网络分析方法已成为 研究现实社会网络和以互联网为基础的网络信息交流的重 要工具其中就包括了个体中心度分析和凝聚子群分析。
个体中心度是评价一个人在网络中重要性的指标主 要包括点度中心度和中间中心度。其中点度中心度用来 衡量谁是网络中的重要人物。如果一个人可以将信息发送 给更多其他人那么他在网络中就拥有较大的话语权。因 此一个点的点度中心度可以用该点在表示网络的有向图 中的“出度”来衡量。中间中心度衡量一个人作为媒介者 的能力即在网络中控制其他人的能力。如果一个人处于 许多其他两点之间的路径上则认为他具有控制其他两个 行动者之间交往的能力。因此一个人的中间中心度越高 就有越多人需要通过他才能与其他人发生联系[11 ]。凝聚子 群分析主要揭示网络舆情形成者之间实际存在的或者潜在 的关系它们是否构成了相对较强的、直接的、紧密的或 积极关系的小团体这些小团体是否会成为促进舆情发展 的核心群体。
根据舆情主体之间的“关注”数据如果一个主体拥 有的粉丝量越多则他的信息能直接传递给其他人的可能 性越大他的点度中心度越高他就越有可能成为意见领 袖。如果一个主体链接的意见领袖的数量越多则他越有 可能成为传播信息的桥梁他的中间中心度越高。还可以 根据主体之间的相互关注数据发现相互关注度高的子群 体他们之间信息的相互传播就越便利。
根据舆情主体之间的发帖、转帖、评论数据如果一 个舆情主体的原创帖文在一定时间内被转发和评论的数量 越多则他的点度中心度越高那么他就是意见领袖。如 果一个主体的转发帖文在一定时间内被再次转发和评论的 数量越多则他的中间中心度就越高那么他就是传播信 息的桥梁。同时还可以根据主体之间相互转帖、评论的 数据发现互动紧密的子群体他们之间舆情互动的实际 效果更加明显。
当前已经有一些成熟的社会网络分析软件可以很 好地进行社会网络分析并呈现出可视化的分析结果对 于发现网络意见领袖和子群体有很好的作用。 3∙3 关联不同领域数据进行舆情分析
大数据的一个重要特征是数据的混杂性因此我们不
— 5 —
2014年3月
第34卷第3期现代情报Journal of Modern InformationMar∙2014Vol∙34 No∙3收稿日期:2013-11-06
基金项目:本文系国家社会科学基金项目“移动互联网环境下网络舆情新特征、新问题与对策研究” (项目编号:13CTQ028)研究成 果之一。
作者简介:唐 涛(1982- )男助理研究员博士研究方向:网络舆情、信息产业发展战略发表论文10余篇。
Industrial Economy产业经济
148 2015年5月 www.chinabt.net
周期以及不同用户群体的利润贡献率;从微观上,确定每位 消费用户的下订单频率、消费偏好、忠诚度以及流失的可能 性。利用大数据进行点、线、面齐全的分析,各大餐饮商家就可 以确定目标消费群体,预测其消费意愿,主动为其提供个性 化的服务,提高销售额和利润率。 3.2 精准营销进行信息推送
过去,由于互联网上所呈现的部分信息不精准、不真实 的问题,出现垃圾信息泛滥的现象。再者,企业缺少足够的用 户特征数据支撑及对数据进行详细、准确的分析,导致其很 难做到精准营销。在餐饮行业,要搜集大数据,首先要生成顾 客的账户信息。这个账户信息能记录下客人对餐厅的餐品和 服务的评价;能记录下消费者特殊的消费偏好、消费能力甚至 消费者的等待时长、用餐时长等数据。这些数据在餐厅给客 人做合理的食谱推荐时可提供依据。 3.3 引导产品及营销活动,投用户所好
从用户浏览访问的各种网站、用户在社会化媒体上所发 布的各类内容及与他人互动的内容中,从中可以找出用户群体 关注的兴趣点。如果能在产品生产之前了解潜在用户的主要 特征,那么企业所新推出的产品生产即可投用户所好。例如,在 O2O电商外卖模式兴起的前期,面向的用户群体主要是学校 的学生群体和写字楼的白领工作者,那么,商家就可以通过大 数据分析,分析此类用户的特征,如学生群体的客单价低、且受 多方面因素的影响,比如学校食堂、假期、优惠促销等,用户忠 诚度相对较低,那么,在后续的营销活动中商家可以根据这类 群体的偏好和习惯特征,推出针对性的个性化服务。 3.4 竞争对手监测与品牌传播
当前餐饮行业的竞争越来越激烈,各大餐饮企业为了抢 占市场份额、争夺用户,开启“烧钱”大战,此前有关美团和饿 了么“陷入恶性竞争”的新闻风波一再引发了业界关注。竞争对 手企业的活动是许多企业想监测的,在大数据时代,用户的 消费记录、浏览记录等很多信息是公开透明的,可以通过大 数据监测分析得知。品牌传播的有效性亦可通过大数据分析 找准方向。例如,可以进行传播趋势分析、内容特征分析、互 动用户分析、正负情绪分类、口碑品类分析、产品属性分布等, 通过监测掌握竞争对手传播态势,参考行业标杆用户策划, 依据用户声音策划内容,甚至可以评估微博矩阵运营效果。 3.5 市场预测与决策分析支持
对于数据对市场预测及决策分析的支持,过去很早就在 数据分析与数据挖掘盛行的年代被提出过,比如沃尔玛著 名的“啤酒与尿布”案例即是一个经典的范例。大数据时代,
Volume(规模大)及Variety(类型多)对数据分析与数据挖掘提 出了新要求。在餐饮行业,更全面、速度更及时的大数据起到 的作用固然重要,但有效的数据挖掘才可能产生高质量的分 析预测。因此,餐饮企业必须构建自身的大数据平台,小企业 也是,应该拥有自身的CRM系统,拥有自己的餐饮管理信息 系统和手机移动端平台,这样,消费者的基本用户信息、消费 频次、喜好的菜品、消费水平等都会记录在餐饮企业的信息 系统中,挖掘、分析这些数据对未来市场预测及决策分析的 进步提供了更好的支撑。
4 大数据在餐饮行业应用中应注意的问题 4.1 借助第三方平台发力,模式不断追求创新
目前开发了自己独立的APP的餐饮企业并不多,常见的 有麦当劳、肯德基、必胜客等,更多中小型餐饮企业更多的是 借助美团、饿了么、淘点点等第三方提供本地生活服务的平台 进行自身的的营销推广。在大数据时代,智能移动终端在大众 用户中普及,餐饮类APP拥有了深厚的群众基础,餐饮企业拥 有了更加广阔的消费市场。在利用第三方平台时,各大餐饮企 业的顾客在网上方可完成点菜、支付、餐后评价的过程,由此 为餐厅解放了很多劳动力、减少了人工成本。但是,每家餐厅 也应该注重自身模式和服务的不断创新,如提供个性化套餐 服务,售后进行温馨提示等,给用餐用户带来新鲜的感觉,不 能人云亦云,否则很难在餐饮业这样竞争激烈的市场保持持 续的高销售量。 4.2 优化“快速送达”服务
外卖O2O最重要的一点是能够赢在配送服务上,外卖网 站系统约定了45分钟、1小时的送餐时间,但面临着用餐高峰期 等待时长、交通状况难预测、送餐地点分散路线难优化等诸多 不确定因素,导致“快速送达”服务实现起来困难重重。所以, 各大餐饮企业应该构建和不断优化自身的物流配送体系,督 促监督配送人员做好服务工作,扎实打好线下服务基础。在服 务质量上也会出现一些问题,诸如货不对板、口味太差等,这需 要庞大的地面推广和精准的商家评级制度来衡量。 4.3 注意食品安全问题
餐饮行业存在部分餐厅的卫生状况依旧令顾客堪忧。在 网站上,照片上美食诱人,实际上食品生产制作的环境都是不 为消费者所知的,工商管理部门的管理制度不完善及人员管理 力度不够,餐饮企业的卫生状况普遍较差。当前,第三方平台对 商家的入驻已经进行了严格的规定,但是管理监督部门的工 作人员前端调查监督力度却不够,诸如曾经曝光的“黑作坊”事 www.chinabt.net 2015年5月147
大数据在餐饮行业的应用研究
华中师范大学信息管理学院 付婷
摘 要:在移动互联网、大数据时代,很多传统企业的互联网化、电商化利用了大数据,来精准地分析不同消费者的偏好,从 而提高营销和服务的质量,同时,利用大数据分析精准定位自己的客户群,更进一步地指导企业品牌营销战略。餐饮业亦 是如次,大数据已慢慢渗透到该行业之中。 关键词:大数据 餐饮业 O2O 应用
中图分类号:F719.3 文献标识码:A 文章编号:2096-0298(2015)05(c)-147-03 1 引言
沃顿商学院运营与信息管理学教授Shawndra Hill曾表 示,这是一个非常激动人心的时代。有大量的数据可挖掘,以 深入了解客户,了解他们的态度和他们在想什么,并清楚用户 说话背后的真正含义。在大数据时代,可以分析出更多有用的 数据,可以让传统行业更好地了解客户需求,提供个性化的服 务。大数据已经渗透到现在的每一个行业和业务职能领域, 企业对海量数据的挖掘和运用,预示着一个新的增长端口打 开了,餐饮行业亦是面对着这样的挑战和机遇。
2 大数据在餐饮行业中的作用 2.1 有助于精准地找到目标用户
国家统计局数据显示,2014年中国餐饮行业市场规模为 2.79万亿元,同比增幅9.7%,相较2013年增长率有所提升。可 见,餐饮行业所覆盖的用户基数很大,范围很广,还存在着很 大的盈利空间。
在传统的营销时代,企业想要找到目标用户主要有几种 方式:通过大众覆盖找人、通过关系找人、通过朋友圈层找 人、通过渠道延伸找人、通过CRM数据库找人。这些方法普 遍成本太高,效率太低,同时,这也需要企业具备强大的组织 和协调能力。而在大数据时代,餐饮业对目标客户的定位方 式发生了变化。科学技术替代了人力和组织,数据替代了问卷 和经验。首先,客户、订单数据量的增加已经实现了从量变到 质变的转换;其次,这些数据包含了用户真实的互联网行为, 给商家传递的信息更加可靠可信;最后,这些数据也包含了大 量来自用户主动发布的信息。比如,用户在体验或享用了某一 家餐厅的美食或服务之后,可以线上发布评论方便后面的潜 在消费者参考,好的评论可以为餐饮企业聚集和吸引更多目 标用户;而不好的评论也有助于商家正视自身当前的不足,并 进一步地改善服务质量。在互联网的作用下,忠诚用户的最大 价值在于“裂变”,由一个忠诚用户增长为两个,甚至是吸引一
群用户前来消费,他们利用微博、朋友圈等社交媒体平台,秀 一秀自己享用的美食或服务,就会引来圈子里一群具有相似 兴趣的用户围观,一次裂变、增长,营销效果不可估量。在餐 饮业,忠诚客户就是最优质的目标消费者。 2.2 有利于实时优化广告投放策略
传统媒体广告的最大特点是按时长和版面收费,因此,为 了在有限的时长和有限的版面上传播出记忆深刻、有销售力 的产品信息,企业需要把一个包含无数内容的品牌和产品全 部信息,高度精练成一句话。而问题在于,在这个信息高度爆 炸和崇尚个性化的时代——广告信息很难保证被人注意,又 很难保证被大部分人喜欢。这是传统营销所面临的一个巨大 挑战。如今,基于大数据技术的广告调度将解决以上问题。在 餐饮行业,最流行的一种做法是利用时间营销策略,通过时 间坐标切割,准确辨别用户需求,包括需求时间及偏离尺度, 通过匹配媒体内容,辨别用户对品牌及产品的偏好度,以时间 为依据对群体进行需求层级划分,控制广告出现在用户需求 的最佳时刻,确保广告的精准有效。总之,针对不同类型的人 群制定差异化的投放策略,使广告发挥最大的价值。比如,在 外卖服务业发展前期,借助学生这一群体的用户体量和粘性, 快速提升平台的订单量级,那么就可以针对这类用户群体推 出个性化服务和打折促销活动,如“拼单”、“满减”、实时发红 包、在学生中午下课的时间点发放创意宣传单等。
3 大数据在餐饮行业中的应用
大数据在餐饮行业应用的意义在于为餐饮企业节省成 本、增强管理、提升客源和业绩、提升消费者的服务体验。 3.1 分析用户行为和特征
根据用户在注册账号时留存下来的个人基本信息和其 后期浏览历史和消费历史,分析出用户的消费偏好与购买习 惯,甚至做到“比用户更加了解用户自己”,这是许多大数据营 销的前提与出发点。从宏观上,分析用户的结构、流量、购买产业经济Industrial Economy
www.chinabt.net 2015年5月149
件。所以,食品安全问题依然是餐饮行业当前应注重的问题。 4.4 客单价过低的现象
对于饿了么平台,2014年外卖日均订单量按照10万单来计 算,其年在线交易额超过12亿,计算下来平均每单的客单价不 足33元,每单扣除掉成本之后所赚取的收益很少,这对于一些 选择自建外送团队的创业公司来说,因配送成本过高正日益显 现出体力不支,客单价低决定其总体收益也很难短期暴涨。所 以,在物流配送方面,未来应注重轻模式和重模式相结合的方 式,压缩配送成本;在营销方面来看,目标用户群体适当由消费 能力较低的学生群体向更高单价的中高端餐饮和更高消费能 力的白领群体渗透,并在这些分支建立起优势。
丽江市石鼓镇红色旅游资源开发以及市场调查总结①
云南大学旅游文化学院 陶琼
摘 要:在国家政策引导和市场需求的驱动下,近年来红色旅游在各地得到蓬勃发展。丽江市石鼓镇作为“全国100个红色旅 游景点景区”之一以及“云南省重点建设十大红色旅游风景区”之一,当地政府也积极响应并加快了发展红色旅游的步伐。 但由于当地红色旅游开发建设以及宣传各方面的不健全,使得红色旅游开发存在若干问题和不足,比较严重的是外来游 客对该景区不了解、不满意,整体印象较差。所以本文在分析调查当地红色旅游资源现状的基础上,对该地的红色旅游资 源进行评价分析,并结合市场调查问卷以及结论对当地的红色旅游开发提出相关建议。 关键词:红色旅游 开发 资源 市场调查
中图分类号:F592 文献标识码:A 文章编号:2096-0298(2015)05(c)-149-03 1 丽江市石鼓镇红色旅游开发现状 1.1 丽江市石鼓镇红色旅游景区概况
丽江市石鼓镇以其独特的纳西民居建筑、红色革命教育 基地为代表的历史文化以及“长江第一湾”的自然风光于2010 年5月被列为210个云南省重点开发建设特色小镇里的60个 旅游型特色小镇之一和“全国100个红色旅游景点景区”之一, 且石鼓渡口已被纳入“全国红色旅游经典景区名录”和“云南 省重点建设十大红色旅游风景区”之一。目前石鼓镇属于丽 江市玉龙县“十二五”旅游发展规划当中重点发展的“三大旅 游区”之一。
历史上的石鼓镇是“茶马古道”的要津和南下大理、北进 藏区的交通枢纽,是老君山的中转站和进入“三江并流”世界 自然遗产的南大门,今天的石鼓镇是丽江的文化旅游重镇和 西部地区的经济商贸中心。 1.2 丽江市石鼓镇红色旅游景区开发现状
丽江市石鼓镇由于经济基础薄弱、投资渠道单一、开发
规划欠缺等方面的影响和制约,该地的旅游产业和旅游市 场可以说仍处于初级发展阶段,红色旅游开发一直处于产品 形式单一、开发深度不足、市场意识缺乏等状态。目前,随着 全国红色旅游品牌效应的不断提升,红色旅游区域合作的 不断发展,石鼓镇重点基础设施建设项目的推进,旅游开发 在政策、区位、资源、文化等方面优势的进一步凸显,石鼓镇 在红色旅游开发方面的空间会很大。总体来说,发展红色旅 游对于丽江市石鼓镇是一项促进当地经济社会更好更快发 展的富民工程。
2 丽江市石鼓镇红色旅游景区调查以及总结
根据《旅游景区质量等级评定管理办法》(国家旅游局令 第23号)和《旅游景区质量等级的划分与评定》国家标准(GB/ T17775-2003)的相关规定,本人组织团队对该景区的服务质 量与环境质量、景观质量、游客意见等三大方面进行了调研, 也请云南省旅游局有过多次A级景区质量等级评定的相关专 员结合《旅游景区质量等级的划分与评定》中的三大细则对 该景区进行了量分,并从中发现和总结该景区在服务和管理 方面的不足。
①基金项目:云南省教育厅科学研究基金项目”丽江市石鼓红
色旅游资源开发初步研究”(2013C042)。
参考文献
[1] 2015年中国外卖O2O行业发展报告[EB/OI].艾瑞网, http://report.iresearch.cn/2370.html [2] 杨欣,刘芸.餐饮世界:大数据时代的餐饮网络营销思 维[M].2014.
[3] “看的见”的效果——AdTime大数据广告营销生 态体系[EB/OI].艾瑞网,http://a.iresearch.cn/ onm/20150710/252095.shtml
[4] 外卖O2O:光鲜表象下的一地鸡毛[EB/OI].http:// ec.iresearch.cn/oec/20140831/237380.shtml