Timelesszk-CSDN博客

原创如何配置HA

一:配置HDFS-HA集群1. 官方地址：http://hadoop.apache.org/2. 在opt目录下创建一个ha文件夹mkdir ha3. 将/opt/app/下的 hadoop-2.7.2拷贝到/opt/ha目录下cp -r hadoop-2.7.2/ /opt/module/ha/4. 配置hadoop-env.sh export JAVA_HOM...

2020-05-04 18:15:55 794

原创 Zookeeper内部原理

1 节点类型2 Stat结构体1）czxid-创建节点的事务zxid每次修改ZooKeeper状态都会收到一个zxid形式的时间戳，也就是ZooKeeper事务ID。事务ID是ZooKeeper中所有修改总的次序。每个修改都有唯一的zxid，如果zxid1小于zxid2，那么zxid1在zxid2之前发生。2）ctime - znode被创建的毫秒数(从1970年开始)3）mzxid...

2020-05-02 11:47:06 137

原创 Zookeeper安装使用

Zookeeper入门1.1 概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。1.2 特点1.3 数据结构1.4 应用场景提供的服务包括：统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。Zookeeper安装2.1 本地模...

2020-04-29 23:42:29 167

原创 Hadoop企业优化

MapReduce优化方法MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。数据输入Map阶段Reduce阶段I/O传输数据倾斜问题常用的调优参数1．资源相关参数（1）以下参数是在用户自己的MR应用程序中配置...

2020-04-28 20:39:02 118

原创 MapReduce

Map Join1．使用场景MapJoin适用于一张表十分小、一张表很大的场景。2．优点思考：在Reduce端处理过多的表，非常容易产生数据倾斜。怎么办？在Map端缓存多张表，提前处理业务逻辑，这样增加Map端业务，减少Reduce端数据的压力，尽可能的减少数据倾斜。3．具体办法：采用DistributedCache（1）在Mapper的setup阶段，将文件读取到缓...

2020-04-23 18:41:35 188

原创自定义outputformat实例

自定义OutputFormat案例实操1．需求过滤输入的log日志，包含atguigu的网站输出到e:/atguigu.log，不包含atguigu的网站输出到e:/other.log。（1）输入数据（2）期望输出数据2．需求分析3．案例实操（1）编写FilterMapper类 package com.atguigu.mapredu...

2020-04-23 00:06:06 721

原创 HDFS笔记2

HDFS文件上传（测试参数优先级）1．编写源代码 @Test public void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = ne...

2020-04-14 21:37:29 180

原创 HDFS笔记

1 HDFS概述1.1HDFS定义1.2HDFS优点1.3HDFS缺点1.4HDFS组成架构1.5HDFS文件快大小1.6思考2 HDFS的Shell操作1．基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2．命令大全[atguigu@hadoop102 ...

2020-04-13 17:19:08 134

原创大数据仓库项目之行为数据

1三范式区分关系建模与维度建模关系模型关系模型主要应用与OLTP系统中，为了保证数据的一致性以及避免冗余，所以大部分业务系统的表都是遵循第三范式的。维度模型维度模型主要应用于OLAP系统中，因为关系模型虽然冗余少，但是在大规模数据，跨表分析统计查询过程中，会造成多表关联，这会大大降低执行效率。所以把相关各种表整理成两种：事实表和维度表两种。所有维...

2020-04-08 16:55:06 297

原创大数据仓库项目day7

自定义UDF函数（解析公共字段）1）创建一个maven工程：hivefunction2）创建包名：com.atguigu.udf3）在pom.xml文件中添加如下内容<properties><project.build.sourceEncoding>UTF8</project.build.sourceEncoding>...

2020-04-05 17:55:42 216

原创大数据仓库项目day6

1数仓搭建之ODS& DWD1.1 创建数据库1）创建gmall数据库hive (default)> create database gmall;说明：如果数据库存在且有数据，需要强制删除时执行：drop database gmall cascade;2）使用gmall数据库hive (default)> use gmall;1.2 ODS层...

2020-04-03 19:35:21 209

原创大数据仓库项目day5

1 hive安装1．Hive安装及配置（1）把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/（3）修改apa...

2020-04-02 19:44:15 132

原创大数据仓库项目day4

1 接着day3的kafka 之前安装好了在/home/atguigu/bin目录下创建脚本kf.sh[atguigu@hadoop102 bin]$ vim kf.sh在脚本中填写如下内容#! /bin/bashcase $1 in"start"){for i in hadoop102 hadoop103 hadoop104...

2020-04-01 17:30:27 245

原创大数据仓库项目day3

1 添加zk启动停止脚本内容为:#! /bin/bashcase $1 in"start"){for i in hadoop102 hadoop103 hadoop104dossh $i "/opt/module/zookeeper-3.4.10/bin/zkServer.sh start"done};;"stop"){for i in hadoop10...

2020-03-31 18:54:02 156

原创 hadoop集群搭建day2

1 .1 hadoop-lzo-0.4.20.jar的添加把hadoop-lzo-0.4.20.jar移动到/opt/module/hadoop-2.7.2/share/hadoop/common/同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104[hadoop100@hadoop102 common]$ xsync hadoop-lzo-0.4...

2020-03-30 21:16:42 195 1

原创 hadoop集群搭建day1

1. 克隆虚拟机创建的虚拟机注意事项:磁盘分区的时候创建自定义布局，这里要注意都是标准分区。boot分200M，swap形态分区给2G，剩下的全都给硬盘。vmnet8地址 192.168.140所以虚拟机映射vim/etc/hosts192.168.140.101 hadoop101192.168.140.102 hadoop102192.168.1...

2020-03-29 20:31:49 159

原创运动会分数统计问题

@史上最全的运动会分析问题TOC一、需求分析1:各项目结束时，输入前三名或前五名的项目编号、运动员姓名、校名和名次（成绩）；2:产生各学校的成绩单，内容包括每个学校所取得的每项成绩的项目号、名次（成绩）、姓名和得分，并统计各学校总分；3:可以按学校编号、男女团体总分排序输出；4:可以按学校编号查询学校某个项目的情况；5:可以按项目编号查询取得前三或前五名的学校。二、概要设计1.文字...

2020-01-07 14:15:32 1732 1

qq_44927239的博客