自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 如何配置HA

一:配置HDFS-HA集群1. 官方地址:http://hadoop.apache.org/2. 在opt目录下创建一个ha文件夹mkdir ha3. 将/opt/app/下的 hadoop-2.7.2拷贝到/opt/ha目录下cp -r hadoop-2.7.2/ /opt/module/ha/4. 配置hadoop-env.sh export JAVA_HOM...

2020-05-04 18:15:55 784

原创 Zookeeper内部原理

1 节点类型2 Stat结构体1)czxid-创建节点的事务zxid每次修改ZooKeeper状态都会收到一个zxid形式的时间戳,也就是ZooKeeper事务ID。事务ID是ZooKeeper中所有修改总的次序。每个修改都有唯一的zxid,如果zxid1小于zxid2,那么zxid1在zxid2之前发生。2)ctime - znode被创建的毫秒数(从1970年开始)3)mzxid...

2020-05-02 11:47:06 133

原创 Zookeeper安装使用

Zookeeper入门1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。1.2 特点1.3 数据结构1.4 应用场景提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。Zookeeper安装2.1 本地模...

2020-04-29 23:42:29 161

原创 Hadoop企业优化

MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。数据输入Map阶段Reduce阶段I/O传输数据倾斜问题常用的调优参数1.资源相关参数(1)以下参数是在用户自己的MR应用程序中配置...

2020-04-28 20:39:02 115

原创 MapReduce

Map Join1.使用场景MapJoin适用于一张表十分小、一张表很大的场景。2.优点思考:在Reduce端处理过多的表,非常容易产生数据倾斜。怎么办?在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。3.具体办法:采用DistributedCache(1)在Mapper的setup阶段,将文件读取到缓...

2020-04-23 18:41:35 175

原创 自定义outputformat实例

自定义OutputFormat案例实操1.需求过滤输入的log日志,包含atguigu的网站输出到e:/atguigu.log,不包含atguigu的网站输出到e:/other.log。(1)输入数据(2)期望输出数据2.需求分析3.案例实操(1)编写FilterMapper类 package com.atguigu.mapredu...

2020-04-23 00:06:06 657

原创 HDFS笔记2

HDFS文件上传(测试参数优先级)1.编写源代码 @Test public void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = ne...

2020-04-14 21:37:29 176

原创 HDFS笔记

1 HDFS概述1.1HDFS定义1.2HDFS优点1.3HDFS缺点1.4HDFS组成架构1.5HDFS文件快大小1.6思考2 HDFS的Shell操作1.基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2.命令大全[atguigu@hadoop102 ...

2020-04-13 17:19:08 131

原创 大数据仓库项目之行为数据

1三范式区分关系建模与维度建模关系模型 关系模型主要应用与OLTP系统中,为了保证数据的一致性以及避免冗余,所以大部分业务系统的表都是遵循第三范式的。维度模型 维度模型主要应用于OLAP系统中,因为关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。所以把相关各种表整理成两种:事实表和维度表两种。所有维...

2020-04-08 16:55:06 291

原创 大数据仓库项目day7

自定义UDF函数(解析公共字段)1)创建一个maven工程:hivefunction2)创建包名:com.atguigu.udf3)在pom.xml文件中添加如下内容<properties><project.build.sourceEncoding>UTF8</project.build.sourceEncoding>...

2020-04-05 17:55:42 208

原创 大数据仓库项目day6

1数仓搭建之ODS& DWD1.1 创建数据库1)创建gmall数据库hive (default)> create database gmall;说明:如果数据库存在且有数据,需要强制删除时执行:drop database gmall cascade;2)使用gmall数据库hive (default)> use gmall;1.2 ODS层...

2020-04-03 19:35:21 203

原创 大数据仓库项目day5

1 hive安装1.Hive安装及配置(1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下(2)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/(3)修改apa...

2020-04-02 19:44:15 128

原创 大数据仓库项目day4

1 接着day3的kafka 之前安装好了在/home/atguigu/bin目录下创建脚本kf.sh[atguigu@hadoop102 bin]$ vim kf.sh在脚本中填写如下内容#! /bin/bashcase $1 in"start"){for i in hadoop102 hadoop103 hadoop104...

2020-04-01 17:30:27 234

原创 大数据仓库项目day3

1 添加zk启动停止脚本内容为:#! /bin/bashcase $1 in"start"){for i in hadoop102 hadoop103 hadoop104dossh $i "/opt/module/zookeeper-3.4.10/bin/zkServer.sh start"done};;"stop"){for i in hadoop10...

2020-03-31 18:54:02 150

原创 hadoop集群搭建day2

1 .1 hadoop-lzo-0.4.20.jar的添加把hadoop-lzo-0.4.20.jar移动到/opt/module/hadoop-2.7.2/share/hadoop/common/同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104[hadoop100@hadoop102 common]$ xsync hadoop-lzo-0.4...

2020-03-30 21:16:42 191 1

原创 hadoop集群搭建day1

1. 克隆虚拟机创建的虚拟机注意事项:磁盘分区的时候创建自定义布局,这里要注意都是标准分区。boot分200M,swap形态分区给2G,剩下的全都给硬盘。vmnet8地址 192.168.140所以虚拟机映射vim/etc/hosts192.168.140.101 hadoop101192.168.140.102 hadoop102192.168.1...

2020-03-29 20:31:49 148

原创 运动会分数统计问题

@史上最全的运动会分析问题TOC一、需求分析1:各项目结束时,输入前三名或前五名的项目编号、运动员姓名、校名和名次(成绩);2:产生各学校的成绩单,内容包括每个学校所取得的每项成绩的项目号、名次(成绩)、姓名和得分,并统计各学校总分;3:可以按学校编号、男女团体总分排序输出;4:可以按学校编号查询学校某个项目的情况;5:可以按项目编号查询取得前三或前五名的学校。二、概要设计1.文字...

2020-01-07 14:15:32 1633 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除