深入浅出大数据–课本学习 two

最新推荐文章于 2024-10-10 17:12:11 发布

中关村一男子

最新推荐文章于 2024-10-10 17:12:11 发布

阅读量694

点赞数

分类专栏：课本学习文章标签：大数据分布式计算大数据存储

本文链接：https://blog.csdn.net/sdzbzj0406/article/details/54646271

版权

课本学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

大数据关键技术

大数据技术包括大数据采集与预处理，大数据存储与管理，大数据分析与挖掘，大数据应用与展现。

大数据采集与预处理

这是大数据价值挖掘最重要的一环。传统ETL工具将无法发挥作用，因为大数据的数据来源复杂多样。
目标：实时数据质量监控与清洗，通过强大的集群和分布式计算能力提高数据质量监控性能，保证负载均衡和高可靠性。
工具：Flume,Scribe,Kafka,Time Tunnel和Hadoop的Chukwa等。

大数据存储与管理技术

主要是解决复杂结构化、半结构化和非结构化大数据的存储与管理技术，并为其提供可扩展性强，可靠性强，性能卓越的额数据存储，访问及管理方案。
采用分而治之的思想，即构建分布式存储系统。

分布式文件系统

三大核心需求：
Consistency(一致性)：所有数据备份，在同一时刻是否是同样的值，等同于所有节点访问同一份最新的数据副本。
Availability（可用性）：在集群中的一部分节点故障后，集群整体是都还能响应客户端的读写请求，即对数据更新要具备高可用性。
Partition Tolerance(分区容错性)：分区相当于对通信的时限要求，系统如果不能在时限内达成数据一致性，就意味着发生了分区的星狂，必须就当前操作在C和A之间做出选择。
CAP理论，只能满足其中的两种，基本满足分区容错性，就是寻求在一致性和可用性之间的平衡。
典型的分布式文件系统有：Lustre, GFS,HDFS.

分布式数据库

数据在逻辑上属于同一个系统，在物理上分散在网络的若干站点上，并且要求网络的每个站点具有自治的处理能力，能执行本地的应用。
关系型数据库：遵循ACID原则，格式化数据结构。
非关系型数据库：分布式的，不遵循ACID原则，一般遵循BASE模型（Basically Available，Soft-state，Eventually Consistent），
不需要固定的表结构，不存在连接操作，可按功能分类，文档数据库，图数据库，键值数据库，列存储数据库，内存数据网络。

大数据分析与挖掘技术

分类学习：逻辑回归，贝叶斯，支持向量机，感知器，神经网络，随机森林。
聚类分析：K均值，期望最大化聚类，均值漂移聚类，层次聚类
关联规则：Apriori算法，FP-Tree算法。
回归分析：主成分回归分析法

大数据分析与挖掘框架

分类	名称	特点	应用领域
批处理框架	MapReduce；UcBerkeley Spark	高扩展性，高容错能力，动态灵活的资源分配	数据分析、日志分析，数据挖掘，机器学习等
流式处理框架	Twitter Storm	保证响应时间的事务功能，消息精确处理，动态流数据处理，记录级容错	在线机器学习，连续计算，数据采集等

批处理数据：数据量大，数据精确度高和数据价值密度低的特性。
流失数据分析：对实时性要求比较高，若对精确度要求稍微宽松，有更明显的优势。