对“大数据”的理解

架构挑战:

1、对现有数据库管理技术的挑战。

2、经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化数据查询语言),在设计的一开始是没有考虑到非结构化数据的存储问题。

3、实时性技术的挑战:一般而言,传统数据仓库系统,BI应用,对处理时间的要求并不高。因此这类应用通过建模,运行1-2天获得结果依然没什么问题。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。

4、网络架构、数据中心、运维的挑战:随着每天创建的数据量爆炸性的增长,就数据保存来说,我们能改进的技术却不大,而数据丢失的可能性却不断增加。如此庞大的数据量存储就是首先面临的非常严峻的问题,硬件的更新速速将是大数据发展的基石,但效果确实不甚理想。

分析技术:

1、数据处理:自然语言处理技术(NLP)

2、统计和分析:A/B test、top N排行榜、地域占比、文本情感分析

3、数据挖掘:关联规则分析、分类、聚类

4、模型预测:预测模型、机器学习、建模仿真

存储:

1、结构化数据:海量数据的查询、统计、更新等操作效率低

2、非结构化数据:图片、视频、word、PDF、PPT等文件存储、不利于检索,查询和存储

3、半结构化数据:转换为结构化数据存储、按照非结构化存储

解决方案:

1、存储:HDFS、HBASE、Hive、MongoDB等

2、并行计算:MapReduce技术

3、流计算:twitter的storm和yahoo的S4

大数据与云计算:

1、云计算的模式是业务模式,本质是数据处理技术

2、数据是资产,云为数据资产提供存储、访问和计算

3、当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用。但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策方案和服务,是大数据核心议题,也是云计算的最终方向。

大数据平台架构:

我想这幅架构图,对大数据处理的人来说,应该不是很陌生。

IaaS::基础设施即服务。基于 Internet 的服务(如存储和数据库)。

PaaS:平台即服务。提供了用户可以访问的完整或部分的应用程序。

SaaS:软件即服务。则提供了完整的可直接使用的应用程序,比如通过 Internet管理企业资源。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值