随着互联网+时代的来临,互联网已经从InformationTechnology (IT)时代过度到Data Technology (DT)时代,数据量也以几何量级递增,数据整体呈现出5V特征,大体量(Volume)、多样性(Variety)、时效性(Velocity)、准确性(Veracity),大价值(Value)。大体量体现为数据量可以从TB到PB,甚至到EB规模,google资料显示,其每天搜索提供的数量达到30PB(1P=1024TB), 这些数据如果打印出来将超过5千万亿张A4纸,但是资料同时也显示,人类到目前为止,生产的所有印刷材料的数据量仅为20PB。多样性体现在,数据的形式也从结构化的文本数据形式存在,更多的是图片,视频,音频、地理位置这样的非结构化的数据。时效性体现在,越来越的多的实时计算需求,计算结果需要在秒级,毫秒级,甚至微秒级内完成。准确性体现在,高效快速的结果结果并需是真实有效的。数据包含着无限的价值,利用大数据分析和挖掘技术将带来巨大的商业和非商业价值。
数据在企业中已经发挥着越来越重要的角色,但是如何挖掘数据中的价值正在困扰着大多数中小型企业。投投有道带你揭开大数据处理神秘面纱,了解大数据处理过程常用的技术和工具。
大数据整体系统架构一般分为数据采集,数据存储,数据加工,数据分析挖掘,数据呈现5大部分,如下图所示:
下面对各个部分做个简单的介绍和说明:
-
数据采集
数据即可来源线上产生的源源不断日志用户行为日志,比如用户搜索了什么,浏览了什么,评论了什么,买了什么,点击了什么广告,看了什么视频,听了什么音乐等等,又可来源企业用户属性数据,也可来源于ERP管理系统,通过数据通道和ETL工具将这些源源不断产生的数据入库落地。
-
数据存储
依托于分布式Hadoop存储方案,企业可以解决海量数据存储问题。Hadoop是一个能够对大量数据进行分布式存储和计算软件框架,由Apache基金会开发,用户可以在上面开发和处理海量数据,体现为以下几个特点:
-
高扩展性,集群资源可以快速的部署和上线,同时可以组合上千台服务器完成分布式存储;
-
高效性,通过数据分发,能够在节点之间动态地移动数据,同时保证各个节点负载;
-
高容错性,能够自动维护数据的多个备份,并且能够在失败之后自动从其他节点恢复数据。
-
数据加工
集中存储的海量数据进行工具化的清洗和整理加工,形成需要的各种中间或临时计算数据,同时开发海量数据的实时秒级计算,为线上的数据挖掘和分析提供api服务。
-
数据挖掘
该过程的特点和挑战主要是用于挖掘的算法很复杂,算法工程师通过不断的建模和优化,在没有预设主题的情况下,对数据基于各种算法对数据进行分类、聚合,从而实现机器自动化学习。典型算法有Kmeans、SVM,NaiveBayes,回归分析,因子分析,多元优化等。,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
-
数据可视化
数据可视化可以帮助用户理解和使用数据,分析得到各种指标数据结果,如目标用户和实际到访用户的重合度,到访用户的实际标签属性特征等。
以上各个模块是任何一个中小企业在大数据处理过程中都需要密切关注的。
-----------------------------------------------------------------------------------
投投有道是一款基于用户行为大数据分析,为广告主提供最优投放方案的数据服务产品。我们提供精准的媒体选择,合理的广告竞价,实时投放效果追踪,针对搜索广告我们提供深度细化分析关键词投入产出比,全网匹配最佳投放关键词,更具用户行为自动化优化关键词和竞价,轻松倍化ROI。基于自建和第三方合作DMP,立体化360度刻画用户属性,为广告主提供受众群体分析,基于历史数据,建立数据分析模型,确定每个用户LTV(用户终身价值),高效准确预测最后收入。
更多详情请点击:http://www.ttyoudao.com