两只手-CSDN博客

原创 Hive

前言Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处...

2019-06-20 09:00:46 641

原创 Zookeeper原理

zookeeperZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户配置zookeeper上传zookeeper.jar包解压修改 zookeeper下的zoo.cfg...

2019-06-18 21:22:20 228

原创 mapreduce

mapreduceMapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定...

2019-06-15 07:40:31 213

转载 HDFS基本命令

cat 使用方法：hadoop fs -cat URI [URI …]将路径指定文件的内容输出到stdout。示例：hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2hadoop fs -cat file:///file3 /user/hadoop/file4返回值：成功返回0，失败返回-1。co...

2019-06-13 20:28:42 351

原创伪分布式集群搭建

搭建虚拟机1.建立一个新的虚拟机2.修改主机名称(为了以后使用方便,也可以不改) vi /etc/sysconfig/network3.配置网络信息 vi /etc/sysconfig/network-scripts/ifcfg-eth0其中IPADDR为网路IP地址,NETMASK为网络掩码,GATEWAY是网关,DNS1与网关一样,在这些操作完成之后重启网络服务 : ser...

2019-06-12 15:29:50 130

原创 SecondaryNamenode简介

SecondaryNamenode持久化Namenode掌握元数据,为了保证数据的安全–将内存中的数据存放到磁盘中当我们的集群因断电等特殊原因产生问题的时候,问题解决,重新开机,会去磁盘上读取元数据,恢复到断电前的状态备注:SecondaryNamenode永远也无法取代Namenode的位置,他只是Namenode的一个热备edits存放系统在运行过程中产生的操作信息在Seconda...

2019-06-11 21:22:49 832

原创大数据的简单概述

大数据定义:在短时间内快速产生大量多种多样的有价值的信息由于大数据的数据量非常大所以在数据信息存储的时候会有两种方式去解决这种问题,一是垂直扩展,一是横向扩展,横向扩展可以用简单廉价的服务器或者PC端就可以大数据的产生是根据谷歌的三大论文产生的MapReducehttp://blog.csdn.net/active1001/archive/2007/07/02/1675920.aspx...

2019-06-10 21:03:59 596

原创 Linux常用命令和shell编程

Linux常用命令和shell编程linux中的变量本地变量定义方式 : 变量名=值(注:中间不可以有空格);局部变量 local-------只能用于函数 ;环境变量 export;特殊变量(1) $$(2) $#-----获取参数(3) $------获取某一个位置的参数($1 $2)(4) @−−−−等同于@----等同于@−−−−等同于(5) $?------...

2019-06-10 15:17:58 257