- 博客(8)
- 收藏
- 关注
原创 Hive
前言 Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处...
2019-06-20 09:00:46
548
原创 Zookeeper原理
zookeeper ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现, 它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。 最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户 配置zookeeper 上传zookeeper.jar包 解压 修改 zookeeper下的zoo.cfg ...
2019-06-18 21:22:20
179
原创 mapreduce
mapreduce MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定...
2019-06-15 07:40:31
175
转载 HDFS基本命令
cat 使用方法:hadoop fs -cat URI [URI …] 将路径指定文件的内容输出到stdout。 示例: hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2 hadoop fs -cat file:///file3 /user/hadoop/file4 返回值: 成功返回0,失败返回-1。 co...
2019-06-13 20:28:42
269
原创 伪分布式集群搭建
搭建虚拟机 1.建立一个新的虚拟机 2.修改主机名称(为了以后使用方便,也可以不改) vi /etc/sysconfig/network 3.配置网络信息 vi /etc/sysconfig/network-scripts/ifcfg-eth0 其中IPADDR为网路IP地址,NETMASK为网络掩码,GATEWAY是网关,DNS1与网关一样, 在这些操作完成之后重启网络服务 : ser...
2019-06-12 15:29:50
91
原创 SecondaryNamenode简介
SecondaryNamenode持久化 Namenode掌握元数据,为了保证数据的安全–将内存中的数据存放到磁盘中 当我们的集群因断电等特殊原因产生问题的时候,问题解决,重新开机,会去磁盘上读取元数据,恢复到断电前的状态 备注:SecondaryNamenode永远也无法取代Namenode的位置,他只是Namenode的一个热备 edits 存放系统在运行过程中产生的操作信息 在Seconda...
2019-06-11 21:22:49
781
原创 大数据的简单概述
大数据 定义:在短时间内快速产生大量多种多样的有价值的信息 由于大数据的数据量非常大所以在数据信息存储的时候会有两种方式去解决这种问题,一是垂直扩展,一是横向扩展,横向扩展可以用简单廉价的服务器或者PC端就可以 大数据的产生是根据谷歌的三大论文产生的 MapReduce http://blog.csdn.net/active1001/archive/2007/07/02/1675920.aspx ...
2019-06-10 21:03:59
550
原创 Linux常用命令和shell编程
Linux常用命令和shell编程 linux中的变量 本地变量 定义方式 : 变量名=值(注:中间不可以有空格); 局部变量 local-------只能用于函数 ; 环境变量 export; 特殊变量 (1) $$ (2) $#-----获取参数 (3) $------获取某一个位置的参数($1 $2) (4) @−−−−等同于@----等同于@−−−−等同于 (5) $?------...
2019-06-10 15:17:58
210
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人