![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
kamisamak
这个作者很懒,什么都没留下…
展开
-
基于Ambari的大数据平台搭建(HDP)
我的个人博客:https://www.blog.kamisamak.com/[infobox title=“简介”]Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理,类似于CDH,是一个集中部署、管理、监控 Hadoop 分布式集群的工具,主要由Ambari Server 和 Ambari Agent构成,支持Kerberos安全管理。官网:http://ambari.apache.org/[/in原创 2020-09-17 14:19:07 · 1262 阅读 · 0 评论 -
HBase详解
Hbase的安装部署 1、软件包的上传解压 2、修改hbase.env.sh 文件 配置JAVA_HOME 设置hbase使用外部zppkeeper export HBASE_MANAGES_ZK=false 配置 hbase-site.xml<configuration> <property> ...原创 2019-12-12 16:02:49 · 5530 阅读 · 0 评论 -
HIVE HWI 搭建过程
众所周知,Hive有三种使用方式:CLI、HWI浏览器、Thrift客户端。安装配置完Hive后无需进行额外操作即可使用CLI。但是HWI则需要单独搭建。搭建HWI过程前置需求安装ANT并配置环境变量(注意版本)https://www.apache.org/dist/ant/binaries/①下载源代码下载源代码,根据自己的hive版本下载http://archive.apache....原创 2019-12-02 15:36:43 · 5527 阅读 · 0 评论 -
Apache Sqoop搭建
一、简介Apache Sqoop是在Hadoop生基金会提供核心的功能有两个:导入、迁入导出、迁出导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,Hive 相比,并没有什么高深的理论Sqoop...原创 2019-12-02 09:22:22 · 5694 阅读 · 0 评论 -
Hive所有字段类型汇总
我的个人博客地址:https://www.kamisamak.com/原创 2019-11-22 08:25:43 · 9485 阅读 · 0 评论 -
MapReduce开启压缩算法对结果进行压缩
方法①:在代码中进行压缩设置map方法添加Configuration configuration = new Configuration();configuration.set("mapreduce.map.output.compress","true");configuration.set("mapreduce.map.output.compress.codec","org.apac...原创 2019-11-19 08:09:05 · 6545 阅读 · 0 评论 -
HDFS的JAVA的部分API操作代码
前置需求[successbox title=“pom包导入”]clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/org.apache.HadoopHadoop-client2.6.0-mr1-cdh5.14.0org.apache.HadoopHadoop-common2.6.0-...原创 2019-11-18 16:02:26 · 6264 阅读 · 0 评论 -
MapReduce执行流程
第一步:InputFormatInputFormat 在HDFS文件系统中读取要进行计算的数据输出给Split 第二步:SplitSplit 将数据进行逻辑切分,切分成多个任务。输出给RR第三步:RRRR 将切分后的数据转换成key value进行输出key : 每一行行首字母的偏移量value: 每一行数据输出给Map 第四步:Map接收一条一条的数据(有多少行数据Map运行...原创 2019-11-13 16:10:01 · 6515 阅读 · 0 评论 -
HDFS文件读写流程及数据完整性计算
HDFS数据写入流程① client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否 存在,返回是否可以上传;② client请求第一个block该传输到哪些DataNode服务器上;③ NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如: A,B,C;④ client请求3台...原创 2019-11-05 18:09:33 · 6398 阅读 · 1 评论