笔记
我是鲨鱼胃
身体是最硬的金属
展开
-
20190314-Hadoop概述
Apache开源软件基金会开发的,运行于大规模普通服务器上的,大数据存储、计算、分析的,分布式存储系统和分布式运算框架组成1.分布式存储系统HDFS(Hadoop Distributed File System)namenode管理者,在主节点。存放元数据信息:文件大小、位置、块、索引等datanode在从节点,存数据的位置,是数据落地的地方存放2.资源管理系统YARNre...原创 2019-03-20 15:42:09 · 97 阅读 · 0 评论 -
20190315-初识HDFS
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。设计思想分而...原创 2019-03-20 19:14:14 · 256 阅读 · 0 评论 -
20190320-初识Hive
Hive概述hive是什么?基于Hadoop、数据仓库、结构化、类SQL、MapReduce任务架构基本组成(用户接口)CLIJDBC/ODBCWeb UI元数据存储1)元数据是什么?存储在Hive中的数据的描述信息2)有哪些?表的名、表的列和分区以及属性(内部表和外部表)、表的数据所在目录3)存在哪儿?自带Derby。缺点:不适合多用户操作,并且数据存储目录不...原创 2019-03-20 19:24:26 · 323 阅读 · 0 评论 -
20190319-HDFS详解
文章目录核心设计数据块数据复制HDFS副本存放策略Hadoop心跳机制安全模式原理剖析HDFS工作机制NameNode工作机制DataNode工作机制SecondaryNamenode工作机制HDFS的HA运行机制核心设计数据块HDFS上最基本的存储单位,默认大小128M,小于一个块大小的文件不会占据整个块的空间,快非常适合用于数据备份进而提供数据容错能力和可用性。数据复制HDFS为了...原创 2019-03-20 19:49:52 · 302 阅读 · 0 评论 -
20190319&20-MapReduce编程模型和YARN平台
文章目录MapReduce编程模型wordcount词频统计WordCount编程实例shuffleYARN平台MapReduce编程模型MapReduce是一种可用于数据处理的编程模型。该模型比较简单,但用于编写有用的程序并不简单。Hadoop可以运行由各种语言编写的MapReduce程序。例如:Java、Python和C++语言等。最重要的是,MapReduce程序本质上是并行运行的,因此...原创 2019-03-20 20:46:34 · 136 阅读 · 0 评论 -
20190319-利用MapReduce去重和排序
1 分析数据去重 Distinct原文件内容2015-3-1a2015-3-2b2015-3-1a2015-5-4d目标结果2015-3-1a2015-3-2b2015-5-4dMyMapper.javapackage DataDistinct;import java.io.IOException;import org.apache.hadoop.io.Text;...原创 2019-03-20 21:01:25 · 153 阅读 · 0 评论 -
20190321-Hive基本操作
登录Hadoop和Hive[yao@master ~]$ start-all.shThis script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting namenodes on [master]master: starting namenode, logging to /home/yao/hadoop-2...原创 2019-03-21 14:08:09 · 311 阅读 · 0 评论 -
20190321-分区和分桶
文章目录动态分区表1 包含动态分区的字段的表2 关闭严格分区模式3 创建带有分区的表动态分区表1 包含动态分区的字段的表准备数据5 男 16 北京 13754554587 2015-03-246 女 17 北京 13872374170 2017-02-202 女 16 北京 17938844884 2015-05-2623 男 15 北京 13700000033 2016-07-...原创 2019-03-21 15:33:12 · 329 阅读 · 0 评论 -
20190322-Hive高级操作
Join操作连接数据准备数据准备[yao@master data]$ vim studenta.txt[yao@master data]$ vim studentb.txt数据内容//studenta.txt10001 shiny10002 mark10003 angel10005 ella10009 jack10014 eva10018 judy10020 ce...原创 2019-03-22 14:16:29 · 250 阅读 · 1 评论