- 博客(6)
- 资源 (4)
- 收藏
- 关注
转载 大数据学习七
SPARK1、Spark的生态系统 Spark Core:engine Spark SQL :交互式查询 Spark Streaming:流式计算 MLLib:机器学习和数据挖掘 GraphX:图计算2、基本概念 RDD:分布式内存的一个抽象 DAG:有向无环图,反映RDD之间的依赖关系 Executor:运行在工作
2017-06-17 17:05:59 1100
转载 大数据Hadoop学习六
1、Hadoop的改进 Hadoop 1.0到2.0的改进分为MapReduce和HDFS架构的演进。另一方面,不断加入kafka,spark,pig,tez等新的组件。 Hadoop2.0 针对HDFS涉及了HDFS HA,提供名称节点的热备份; 设计了HDFS Federation管理多个命名空间; 涉及了新的资源管理框架YEAR。2、HDFS HA
2017-06-17 15:42:35 572
转载 大数据学习五
1、Hive是一个架构于Hadoop顶层的数据仓库工具,本身不具有存储处理数据的能力,某种程度上可以看作是编程接口。 Hive的存储依托于Hadoop底层的HDFS,数据处理依托于MapReduce,提供类似SQL的查询语句HQL。
2017-06-17 11:19:56 334
转载 Hadoop学习四
MapReduce的主要体系结构 1、Client 用户编写的MapReduce程序通过Client提交到JobTracker端,同时,Client提供一些接口供用户查看Job的运行情况。2、JobTracker JobTracker负责资源监控和作业调度 JobTracker监控所有的TaskTracker和job健康情况,一旦发现有异常,就将作业迁移到别的
2017-06-15 23:55:05 404
转载 Hadoop大数据学习三
1、HDFS文件的输入输出流 Configuration conf = new Configuration(); FileSystem fs = FileSystem .get(conf); FSDataInputStream in = fs.open(new Path(uri)); FSDataOutputStream out = fs.cre
2017-06-13 23:44:43 463
转载 大数据hadoop学习
1、HDFS默认分块64M,一个文件可能被分成多个快存储。2、HDFS的nameNode和dataNode NameNode存储元数据,存储在内存中,保存文件、block、datanode之间的映射关系,起到数据目录的作用; DataNode存储数据,文件保存到磁盘,维护了dataNode id 与本地文件映射关系。 NameNode的数据结构:FsImage,
2017-06-12 23:31:07 585
可直接运行的Java web jar 镜像
2021-01-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人