架构挑战:
1、对现有数据库管理技术的挑战。
2、经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化数据查询语言),在设计的一开始是没有考虑到非结构化数据的存储问题。
3、实时性技术的挑战:一般而言,传统数据仓库系统,BI应用,对处理时间的要求并不高。因此这类应用通过建模,运行1-2天获得结果依然没什么问题。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。
4、网络架构、数据中心、运维的挑战:随着每天创建的数据量爆炸性的增长,就数据保存来说,我们能改进的技术却不大,而数据丢失的可能性却不断增加。如此庞大的数据量存储就是首先面临的非常严峻的问题,硬件的更新速速将是大数据发展的基石,但效果确实不甚理想。
分析技术:
1、数据处理:自然语言处理技术(NLP)
2、统计和分析:A/B test、top N排行榜、地域占比、文本情感分析
3、数据挖掘:关联规则分析、分类、聚类
4、模型预测:预测模型、机器学习、建模仿真
存储:
1、结构化数据:海量数据的查询、统计、更新等操作效率低
2、非结构化数据:图片、视频、word、PDF、PPT等文件存储、不利于检索,查询和存储
3、半结构化数据:转换为结构化数据存储、按照非结构化存储
解决方案:
1、存储:HDFS、HBASE、Hive、MongoDB等
2、并行计算:MapReduce技术
3、流计算:twitter的storm和yahoo的S4
大数据与云计算:
1、云计算的模式是业务模式,本质是数据处理技术
2、数据是资产,云为数据资产提供存储、访问和计算
3、当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用。但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策方案和服务,是大数据核心议题,也是云计算的最终方向。
大数据平台架构:
我想这幅架构图,对大数据处理的人来说,应该不是很陌生。
IaaS::基础设施即服务。基于 Internet 的服务(如存储和数据库)。
PaaS:平台即服务。提供了用户可以访问的完整或部分的应用程序。
SaaS:软件即服务。则提供了完整的可直接使用的应用程序,比如通过 Internet管理企业资源。