#本文章用于记录大数据学习的心得体会与笔记#
1.搭建大数据环境所需要的组件与工具
1.1 Hadoop
Hadoop是一个分布式系统架构,用于解决大量数据的分布存储、资源调度与分析计算工作。Hadoop由三个核心组件构成:HDFS(分布式文件存储系统)、YARN(资源管理调度框架)、MapReduce(分布式计算框架)。
1.2 Hive
Hive是一个基于Hadoop的数据库工具,它可以将数据文件映射成一张数据库表,并提供sql查询功能。
1.3 Hbase
Hbase也是一个数据库工具,但它支持对数据库内容的修改,而Hive只支持对数据的查询。
1.4 Redis
Redis是一个内存数据库工具,是一种内存数据库,提高了检索效率,虽然它是一个内存数据库,但仍然可以实现数据的永久存储。
1.5 zookeeper
zookeeper是一个集群管理系统,用于管理好重要的关键服务,防止错误发生。
1.6 elasticsearch
elasticsearch也是一种数据库,主要用于对数据的分析与搜索,它通过使用分词器将数据分割并赋予各分词权重来进行查询分析。
1.7 spark
spark用于进行实时运算,与Hadoop一样,是一种集群计算环境,可以与Hadoop并行运作,是Hadoop的补充。
1.8 flink
flink也是用于进行数据运算的。
2.结语
这篇文章主要列举了一些大数据环境所需要的组件工具,它们具体的功能与使用方法在之后慢慢学习。写这篇文章的目的主要是为了理清大数据由哪些具体模块组成。
如果有什么错误或纰漏,希望您能指出,如果有对初学者的建议也希望您能赐教!