深入浅出大数据–课本学习 two

大数据关键技术

大数据技术包括大数据采集与预处理,大数据存储与管理,大数据分析与挖掘,大数据应用与展现。

大数据采集与预处理

这是大数据价值挖掘最重要的一环。传统ETL工具将无法发挥作用,因为大数据的数据来源复杂多样。
目标:实时数据质量监控与清洗,通过强大的集群和分布式计算能力提高数据质量监控性能,保证负载均衡和高可靠性。
工具:Flume,Scribe,Kafka,Time Tunnel和Hadoop的Chukwa等。

大数据存储与管理技术

主要是解决复杂结构化、半结构化和非结构化大数据的存储与管理技术,并为其提供可扩展性强,可靠性强,性能卓越的额数据存储,访问及管理方案。
采用分而治之的思想,即构建分布式存储系统。

分布式文件系统

三大核心需求:
Consistency(一致性):所有数据备份,在同一时刻是否是同样的值,等同于所有节点访问同一份最新的数据副本。
Availability(可用性):在集群中的一部分节点故障后,集群整体是都还能响应客户端的读写请求,即对数据更新要具备高可用性。
Partition Tolerance(分区容错性):分区相当于对通信的时限要求,系统如果不能在时限内达成数据一致性,就意味着发生了分区的星狂,必须就当前操作在C和A之间做出选择。
CAP理论,只能满足其中的两种,基本满足分区容错性,就是寻求在一致性和可用性之间的平衡。
典型的分布式文件系统有:Lustre, GFS,HDFS.

分布式数据库

数据在逻辑上属于同一个系统,在物理上分散在网络的若干站点上,并且要求网络的每个站点具有自治的处理能力,能执行本地的应用。
关系型数据库:遵循ACID原则,格式化数据结构。
非关系型数据库:分布式的,不遵循ACID原则,一般遵循BASE模型(Basically Available,Soft-state,Eventually Consistent),
不需要固定的表结构,不存在连接操作,可按功能分类,文档数据库,图数据库,键值数据库,列存储数据库,内存数据网络。

大数据分析与挖掘技术

分类学习:逻辑回归,贝叶斯,支持向量机,感知器,神经网络,随机森林。
聚类分析:K均值,期望最大化聚类,均值漂移聚类,层次聚类
关联规则:Apriori算法,FP-Tree算法。
回归分析:主成分回归分析法

大数据分析与挖掘框架

分类名称特点应用领域
批处理框架MapReduce;UcBerkeley Spark高扩展性,高容错能力,动态灵活的资源分配数据分析、日志分析,数据挖掘,机器学习等
流式处理框架Twitter Storm保证响应时间的事务功能,消息精确处理,动态流数据处理,记录级容错在线机器学习,连续计算,数据采集等

批处理数据:数据量大,数据精确度高和数据价值密度低的特性。
流失数据分析:对实时性要求比较高,若对精确度要求稍微宽松,有更明显的优势。

大数据应用

两个方向:一个是以盈利为目标的商业大数据应用,另一个是侧重于为社会公众提供服务的大数据应用。
大数据可视化:数据可视化,信息可视化,科学计算可视化

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值