Hadoop:大数据系统
HDFS:分布式文件系统
MapReduce:分布式计算框架
YARN:资源管理框架
HBase:分布式列存储数据库
Hive:数据仓库
Mahout:数据分析与挖掘
第二章.大数据关键技术
2.1 大数据采集与预处理技术
Flume
Scribe
Kafka
Time Tunnel
Chukwa
2.2 大数据存储与管理技术
- 分布式文件系统
Lustre
GFS
PVFS
HDFS
- 分布式关系型数据库
Greenplum
Oracle Exadata
- 分布式非关系型数据库
Hbase
2.3 大数据存储与管理技术
2.3.1 传统数据分析与挖掘方法
传统数据分析与挖掘方法主要是针对结构化数据和事务处理的关系型数据库为主,根据不同应用的需求在此基础上构建数据仓库,并选择相关数据进行分析,常用的分析和挖掘方法有数据挖掘、机器学习、统计分析等。
下面对适合大数据技术的传统数据分析与挖掘方法举例分析
- 分类分析
逻辑回归
贝叶斯
支持向量机
感知器
神经网络
随机森林
有限玻耳兹曼机
- 聚类分析
K均值
期望最大化聚类
均值漂移聚类
层次聚类
谱聚类
- 关联规则
Apriori算法
FP-Tree算法
- 回归分析
局部加权线性回归
主成分回归分析法
2.3.2 大数据分析与挖掘方法
布隆过滤器 哈希算法 字典树 深度学习
2.3.3 大数据分析与挖掘框架
- 批处理
可用于分布排序、web访问日志分析,反向索引构建、文档聚类、机器学习、基于统计的机器翻译等对实时性要求不高的大规模数据处理工作。
如社交网络的分析,在FaceBook上以人为核心的社交网络中所产生的大量的文本、图片、音视频等多类型的海量数据进行批处理分析。
批处理分析框架最具有代表性的就是MapReduce编程模型
- 流式数据分析
目前,流式数据分析框架主要应用于数据采集、搜索殷勤、广告精准推荐、商业智能、金融领域的风险管理、社交网络、智能交通等方面。
在数据采集方面,获取海量的实时数据,及时地挖掘出有价值的信息
在搜索引擎方面,对引擎使用者的查询偏好、浏览记录、地理位置等综合信息进行分析,从而决定在搜索页面中要插入什么广告,在哪些位置插入这些广告才能得到最佳效果
在金融领域,通过流式数据分析框架可以对日常运营过程中产生的大量具有时效性的结构化、半结构化和非结构化数据进行流式分析,发现隐藏在其中的内在特征,可以帮助金融银行进行信用卡诈骗检测
Twitter的Storm,Cloudera的Flume,LinkedIn的Kafka
- 交互式数据分析
主要应用于人机交互并实时反馈结果的应用场景
Spark是一种基于内存计算的、可扩展的开源集群计算系统,具有MapReduce的优点
- 图数据分析
图能够很好的表示实体之间的关系
在互联网络,Facebook利用图数据分析框架建立了大量的在线社会网络关系
在交通领域,通过图数据分析框架可在动态网络交通中查找最短路径
Pregel是谷歌提出的基于BSP模型的分布式图计算框架,主要用于BFS(图遍历)、最短路径(SSSP)、PageRank计算等
第三章.基于Hadoop的大数据生态系统
- Hadoop Common是Hadoop体系最底层的一个模块,为Hadoop各子项目提供开发所需的API
- HDFS,提供了一个大规模数据存储管理的基础
- MapReduce是一种计算模型,用于进行大数据量的计算
- YARN:资源管理框架,他可以对集群中的各类资源进行抽下能,并按照一定的策略将资源分配给应用程序或服务
- Hbase:分布式数据存储系统,对大规模数据的随机、实时读写访问
- Hive:数据仓库工具,可以将结构化数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计