![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
千山暮雪CN
年轻,所以无所畏惧!
展开
-
HIVE 总结 三 Hive DDL数据定义
HIVE 总结 三 Hive DDL数据定义本篇总结hive的数据定义,也就是表,库相关的操作命令关于hive的介绍,安装在前面两篇文章里面文章目录HIVE 总结 三 Hive DDL数据定义1.建库2.库的查询,修改,删除3.建表4.表的修改,删除,清除5.内部表(管理表)和外部表的区别1.建库语法CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][原创 2020-07-31 20:49:41 · 371 阅读 · 0 评论 -
Hadoop总结 六 HDFS 一 HDFS基础
Hadoop总结 六 HDFS 一 基础6.1 HDFS 概述HDFS 只是分布式文件管理系统中的一种HDFS 是一个文件系统,通过目录树定位文件,是分布式的HDFS 适合一次写入,多次读出的场景,且不支持文件的修改,适合文件存储和数据分析优点:1.高容错性数据自动保存多个副本,通过增加副本的形式提高容错性某个副本丢失,可以自动恢复2.适合处理大数据数据规模:能处理数据规模达到GB,TB,PB级别的数据文件规模:能够处理百万规模以上的文件数量3.可以构建在成本较低的原创 2020-07-28 23:53:12 · 149 阅读 · 0 评论 -
Hadoop总结 五 配置历史服务器 配置集群日志
Hadoop总结 五 配置历史服务器 配置集群日志5.1 配置历史服务器配置mapred-site.xml在该文件中增加如下配置<!-- 历史服务器端地址 --><property> <name>mapreduce.jobhistory.address</name> <value>hadoop103:10020</value></property><!-- 历史服务器web端地址 -原创 2020-07-28 20:49:06 · 384 阅读 · 0 评论 -
Hadoop 总结 四 配置集群
Hadoop 总结 四 配置集群分析:至少需要三台虚拟机(主机)(关闭防火墙,静态IP,主机名称)需要安装好JDK,Hadoop,以及环境变量的配置需要配置好集群需要单点启动需要节点间ssh配置启动并测试集群虚拟机准备见前两章,并将hadoop103,hadoop104进行同样的配置编写集群分发脚本#scp 安全拷贝 方式#语法:scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname#例:在Hadoop102上将jdk原创 2020-07-28 20:31:13 · 174 阅读 · 0 评论 -
Hadoop 总结 三 hadoop目录结构以及运行模式
Hadoop 总结 三 hadoop目录结构以及运行模式3.1 hadoop目录结构#查看目录ll总用量 52drwxr-xr-x. 2 atguigu atguigu 4096 5月 22 2017 bindrwxr-xr-x. 3 atguigu atguigu 4096 5月 22 2017 etcdrwxr-xr-x. 2 atguigu atguigu 4096 5月 22 2017 includedrwxr-xr-x. 3 atguigu atguigu 4096原创 2020-07-28 18:55:27 · 168 阅读 · 0 评论 -
Hadoop 总结 二 环境搭建(二)
Hadoop 总结 二 环境搭建(二)2.3. 安装JDK ,Hadoop卸载自带的JDKrpm -qa | grep -i java | xargs -nl sudo rpm -e --nodeps上传JDK,Hadoop压缩包使用FTP工具上传到/opt/software目录下,版本选择JDK1.8,Hadoop3.2安装JDK#查看压缩包是否上传成功ll /opt/software#解压JDK到/opt/module文件夹下面tar -zxvf jdk-8..原创 2020-07-28 17:00:27 · 137 阅读 · 0 评论 -
Hadoop 总结 二 环境搭建(一)
Hadoop 总结 二 环境搭建(一)2.1. 准备虚拟机模板本系列采用Linux系统环境 CentOS-7版本基本参数配置内存3-4G,硬盘20G-50G,进行小规模的测试,cpu 2核心关于网络,如果是一台真实主机安装虚拟机那么就采用nat网络模式,如果是真实的主机那么保证外网互相能联通或者局域网内能联通.准备环境#1.测试能联网ping www.baidu.com#2.安装必要的组件yum install -y epel-releaseyum install原创 2020-07-28 16:11:26 · 172 阅读 · 0 评论 -
Hadoop 总结 一 入门介绍
Hadoop 总结 一 入门介绍1.1 是什么?Apache基金会的 分布式系统基础架构应用于海量数据的存储,分析,计算的问题广义上讲,Hadoop通常指----Hadoop生态圈,类似Java开发中所指的spring,及spring全家桶的概念.1.2 Hadoop优势高可靠性:Hadoop底层维护多个数据副本存在于不同的DataNode上,所以可能有节点挂掉,也不会导致数据丢失,这里排除绝对的意外情况,比如自然灾害,或者人为因素.高扩展性:在集群中分配任务数据,可以方便的扩展大量原创 2020-07-27 21:36:52 · 118 阅读 · 0 评论