大数据学习
西木风落
多年开发经验,专业、高效,致力于更好的自己
展开
-
大数据学习(二)
大数据处理及时Hadoop一、Hadoop简介 Hadoop是apache下的一个开源分布式计算平台,为用户提供了系统底层透明的分布式基础架构。Hadoop是Java语言开发,具有很好的跨平台特性,其核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce。 Hadoop是一个能够对大量数据进行分布式处理的软件框架,并原创 2017-01-21 22:24:32 · 441 阅读 · 0 评论 -
大数据Hadoop学习六
1、Hadoop的改进 Hadoop 1.0到2.0的改进分为MapReduce和HDFS架构的演进。另一方面,不断加入kafka,spark,pig,tez等新的组件。 Hadoop2.0 针对HDFS涉及了HDFS HA,提供名称节点的热备份; 设计了HDFS Federation管理多个命名空间; 涉及了新的资源管理框架YEAR。2、HDFS HA转载 2017-06-17 15:42:35 · 565 阅读 · 0 评论 -
大数据学习五
1、Hive是一个架构于Hadoop顶层的数据仓库工具,本身不具有存储处理数据的能力,某种程度上可以看作是编程接口。 Hive的存储依托于Hadoop底层的HDFS,数据处理依托于MapReduce,提供类似SQL的查询语句HQL。转载 2017-06-17 11:19:56 · 331 阅读 · 0 评论 -
大数据hadoop学习
1、HDFS默认分块64M,一个文件可能被分成多个快存储。2、HDFS的nameNode和dataNode NameNode存储元数据,存储在内存中,保存文件、block、datanode之间的映射关系,起到数据目录的作用; DataNode存储数据,文件保存到磁盘,维护了dataNode id 与本地文件映射关系。 NameNode的数据结构:FsImage,转载 2017-06-12 23:31:07 · 572 阅读 · 0 评论 -
Hadoop学习四
MapReduce的主要体系结构 1、Client 用户编写的MapReduce程序通过Client提交到JobTracker端,同时,Client提供一些接口供用户查看Job的运行情况。2、JobTracker JobTracker负责资源监控和作业调度 JobTracker监控所有的TaskTracker和job健康情况,一旦发现有异常,就将作业迁移到别的转载 2017-06-15 23:55:05 · 401 阅读 · 0 评论 -
Hadoop大数据学习三
1、HDFS文件的输入输出流 Configuration conf = new Configuration(); FileSystem fs = FileSystem .get(conf); FSDataInputStream in = fs.open(new Path(uri)); FSDataOutputStream out = fs.cre转载 2017-06-13 23:44:43 · 455 阅读 · 0 评论 -
大数据学习(一)
一、大数据关键技术 大数据特点:4V,数据量大、数据类型多、处理速度快、价值密度低。 大数据的关键技术包括:数据采集、 数据存储和管理、 数据的分析和处理、数据的隐私和安全。其中,分布式存储和分布式处理是大数据技术的核心。 大数据计算模式: 批处理计算 针对大规模数据的批量处理原创 2017-01-21 20:08:15 · 747 阅读 · 0 评论 -
大数据学习(三)
HDFS简介一、HDSF的主要目标 兼容廉价的硬件设备 数据流读写 支持大数据集 简单的文件模型(一般只支持文件的追加,不会覆盖) 强大的跨平台兼容性局限性:不适合低延迟的数据访问无法高效存储大量的小文件不支持多用户读写及任意修改文件原创 2017-01-21 23:32:31 · 222 阅读 · 0 评论 -
大数据学习七
SPARK1、Spark的生态系统 Spark Core:engine Spark SQL :交互式查询 Spark Streaming:流式计算 MLLib:机器学习和数据挖掘 GraphX:图计算2、基本概念 RDD:分布式内存的一个抽象 DAG:有向无环图,反映RDD之间的依赖关系 Executor:运行在工作转载 2017-06-17 17:05:59 · 1096 阅读 · 0 评论