苏先生_404-CSDN博客

原创【每天进步一点点】【Flume】Flume 基本介绍

1.Flume 基本概念介绍Agent :每一个flume进程称作一个agentsource : flume 进程中的入口组件主要用于接收数据，可以从端口、文件等接收数据常见的source 类别有 avro 、exec、spooling、taildirchannel : flume进程中用于中间缓存数据的组件接收source中的消息，存放在本地内存或磁盘中常见的channal 类别有 memory、filesink: flume进程中出口组件，主要用户将最终的数据写到对应类别的目的端常

2020-08-12 11:31:26 232

原创【每天进步一点点】【Flume】flume部署安装

1. 下载安装1.1 下载安装包cdh安装包1.2 解压配置环境变量解压tar -zxvf flume-ng-1.6.0-cdh5.16.2.tar.gz -C ../apps创建软连接ln -s apache-flume-1.6.0-cdh5.16.2-bin/ flume修改环境变量追加如下两行export FLUME_HOME=/Users/sugm/dev/apps/flumeexport PATH=$FLUME_HOME/bin:$PATH刷新环境变量2. 修改

2020-08-12 11:20:59 157

原创【每天进步一点点】【hive窗口函数】窗口函数综合练习

窗口函数综合练习1.需求1.1 数据pk,2021-09-01,500,10.10.10.9 xingxing,2021-09-02,3500,10.10.10.10pk,2021-02-03,46,10.10.10.9xingxing,2021-09-04,578,10.10.10.10pk,2021-09-05,345,10.10.10.9pk,2021-04-06,235,10.10.10.9xingxing,2021-09-07,78,10.10.10.10pk,2021-0

2020-08-10 14:54:42 248

原创【每天进步一点点】【Hive窗口函数】 ROW_NUMBER RANK DENSE_RANK 三者的区别

1. 测试数据要求，根据 domain 分组，对traffic做倒叙排序，需要得到每个domain的排序情况；2. RANK ROW_NUMBER DENSE_RANK 窗口函数使用SQLselect domain, time, traffic,ROW_NUMBER() OVER (partition by domain order by traffic desc) rn1,RANK() OVER (partition by domain order by traffic desc) rn

2020-08-10 12:40:54 303

原创【每天进步一点点】【Hive窗口函数初使用】

Hive创建的窗口函数使用

2020-08-09 23:29:11 100

原创 Hive常见数据格式及存储（二）

上一篇文章中（Hive常见数据格式及存储（一）），主要使用Hive 来做出常见的数据格式对文件存储的对比；没看过的小伙伴，建议先看下；本次，我们来具体聊聊大数据下的存储格式；行式存储在RDBMS数据库中我们存储数据都是按照一行一行来存，也是按照一行一行来读，这种按照行来存储以及来读取数据的存储方式，我们称作为行式存储，这种存储方式在HDFS中存的方式和RDBMS一样，都是将多行数据放在...

2019-09-05 03:32:40 451

原创 Hive常见数据格式及存储（一）

引言：大数据应用中，我认为最核心的两个点就是 “存储” 和 “计算”，在现在的大数据计算中，各种计算引擎的出现，迭代优化使得数据计算能够快速的产生结果，但是数据存储以及数据格式，始终属于最为基本的，合理的数据存储以及数据格式，配合适合的计算引擎，能够使数据计算得到最大的提升，并且减少磁盘开销；这里，我使用Hive作为计算引擎，来说明数据格式对存储的重要性；常见的数据存储格式在hi...

2019-09-05 02:40:27 4677

原创 CDH安装前置篇

现在随着大数据的广泛应用和框架的不断升级，我相信做过大多数程序员都会遇到，版本冲突的问题，CDH 就是为了解决各个不同的大数据框架之间的冲突问题，以及提供一套简洁的安装界面1.选择版本cloudera官网地址，进入官网地址之后，可以选择你需要安装的CDH的版本，这里我一CDH5.15.2 举例。在CDH 5.15.2 界面中可以看到安装文档，主要包括的就是对应支持的系统类型及其版本，J...

2019-03-24 13:04:42 315

原创 CDH 5.15.2 离线部署

安装配置jdk(三台都要配置)mkdir /usr/javatar -zxvf jdk-8u181-linux-x64.tar.gz -C /usr/javamv jdk1.8.0_181/ jdk1.8chmod -R root:root jdk1.8/配置环境变量修改hostsvim /etc/hostsexport JAVA_HOME=/usr/java/jdk1.8ex...

2019-03-24 03:18:24 1130

原创消除spark on yarn的两处警告

1.导读从spark官网中我们可看到spark running-on-yarn 上的话只需要将master指定为yarn即可,但是在on yarn的时候,有可能会报出如下两处警告警告一:18/12/25 00:34:51 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... us...

2018-12-25 23:06:28 487

原创 spark-shell && spark-submit

在spark bin目录下有 spark-shell和spark-submit 两个脚本,通过 --help 看出来,基本参数都是一样的,那么这两个脚本有什么联系呢?我们运行spark-shell 的时候,我们在web ui 界面中可以看出来应用程序名为 Spark shell ,带着诸多疑惑,我们来看下 spark-shell和spark-submit 两个脚本的具体内容spark-sh...

2018-12-20 18:08:20 746

原创 Spark核心概述术语

Application ：一个spark应用程序由 1 个driver program + n 个 executors 组成User program built on Spark. Consists of a driver program and executors on the cluster.Driver programDriver 程序,主要用来运行 spark应用程序中的ma...

2018-12-20 17:29:01 128

原创 sqoop导入hive数据实战

sqoop版本介绍sqoop的版本到目前为止，主要分为sqoop1 和sqoop2 ， sqoop1.4.4之前的所有版本称为sqoop1，之后的版本sqoop1.991，sqoop1.99.2,sqoop1.99.3 称为sqoop2。1.1sqoop1sqoop 架构非常简单，其整合了 Hive 、 Hbase 和 Oozie ，通过 map-reduce 任务来传输数据，从而提供并发...

2018-12-20 16:59:38 2354

原创 SparkRDD Operations(二) coalesce && repartition

1.概念理解首先我们看下官方对这两个算子的介绍coalesce(numPartitions)Decrease the number of partitions in the RDD to numPartitions. Useful for running operations more efficiently after filtering down a large dataset...

2018-12-20 15:39:58 153

原创 SparkRDD Operations(一)

1.RDD操作RDD 算子中,有两大分类 Transformations 和 Actions,对于RDD而言,它支持者两种类型的操作;1.1 Transformations:从现有的数据库中经过装换操作之后形成新的RDD,常见的的 Transformations 算子有 map,filter,mapPartitions,groupByKey…Transformations 这类算子,...

2018-12-20 14:30:35 190

原创 SparkConf && SparkContext详解

官方介绍首先我从官网介绍中知道,我们在创建spark应用程序之前需要先创建 SparkContext对象, SparkContext,会告知 spark 如何去访问集群,要创建SparkContext您首先需要构建一个包含有关应用程序信息的SparkConf对象。The first thing a Spark program must do is to create a SparkCont...

2018-12-17 11:46:48 1878

原创 spark2.4 整合 hadoop2.6.0-cdh5.7.0 源码编译

[hadoop@hadoop000 softwore]$ wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0.tgz^C[hadoop@hadoop000 softwore]$ tar -zxvf spark-2.4.0.tgz -C ~/app/#VERSION=$("$MVN" help:evaluate...

2018-12-11 23:49:52 859

原创大数据生态圈中压缩的使用

1.前言在时下大数据场景中,虽然现在的机器的性能好,节点多,但是不代表,我们的数据就不需要做任何的压缩就开始处理,所以我们还是会对数据做压缩处理的,本文会详细的介绍大数据中常见的压缩格式,以及常见压缩的对比,和使用场景;2.常用压缩格式介绍及对比2.1 常见压缩介绍压缩格式文件后缀gzip.gzbzip2.bz2LZO.lzoSnappy.sn...

2018-12-07 17:28:52 241

原创 Hadoop支持Lzo压缩

1.前置要求编译安装好hadoopjava &amp; maven 安装配置好安装前置库 yum -y install lzo-devel zlib-devel gcc autoconf automake libtool2.安装 lzo2.1 下载 #下载 wget www.oberhumer.com/opensource/lzo/download/lz...

2018-12-07 09:51:49 1080 1

原创 CDH版hadoop2.6.0-cdh5.7.0源码编译

前置要求hadoop2.6.0-cdh5.7.0 源码包下载jdk 1.7+ 下载maven 3.0+ 下载protobuf 2.5+ 下载安装依赖库$>yum install -y svn ncurses-devel gcc*$>yum install -y openssl openssl-devel svn ncurses-devel zlib-dev...

2018-12-05 13:19:35 539

原创 HDFS HA和Yarn HA的区别

1. ZKFCHDFS中ZKFC作为单独的进程Yarn中ZKFC是RM中的线程2.从节点HDFS中的DataNode 会向两个NameNode同时发送心跳。Yarn中NodeManager只会向activeRM上报资源

2018-11-27 23:49:26 371

原创 Yarn HA

Yarn HA 和HDFS HA 一样为了解决单点故障问题架构各个组件的作用ZKFC:zkfc,只作为RM进程的一个线程而非独立的守护进程来独立存在RMStateStore::.RM把job信息存在在ZK的/rmstore下，activeRM会向这个目录写app信息当active RM挂了，另外一个standby RM通过zkfc选举成功为active，会从/rmstore读取相...

2018-11-27 23:43:12 221

原创 HDFS HA 架构理解篇

HA产生的背景为了防止出现,单节点的NameNode挂了,不能对外提供服务,于是产生了,两个NameNode的节点,其中一台是standby,还有一台是active ,保证了两个NameNode,无论哪个出现问题,还是可以实时的对外提供服务HDFS HA 架构HDFS的HA的出现是为了解决单点问题,两个NameNode的通过JounalNode共享数据,通过ZKFC来监控NameNode的...

2018-11-27 23:28:54 290

原创 Linux配置多台机器SSH相互通信信任

2台机器分别执行ssh-keygen生成公钥和密钥 [root@hadoop-01 ~]# ssh-keygen 生成.ssh文件夹及id_rsa和id_rsa.pub [root@hadoop-01 .ssh]# ll total 16 -rw-------. 1 root root 1675 Dec 13 21:37 id_rsa -rw-r--...

2018-11-26 11:02:15 580

原创 JVM快速调优手册之二: 常见的垃圾收集器

如果说收集算法是内存回收的方法论，那么垃圾收集器就是内存回收的具体实现。Java虚拟机规范中对垃圾收集器应该如何实现并没有任何规定，因此不同的厂商、不同版本的虚拟机所提供的垃圾收集器都可能会有很大差别，并且一般都会提供参数供用户根据自己的应用特点和要求组合出各个年代所使用的收集器。HotSpot虚拟机的垃圾回收器图中展示了7种作用于不同分代的收集器，如果两个收集器之间存在连线，就说明它们可...

2018-11-23 15:51:22 84

原创 JVM快速调优手册之一: 内存结构(堆内存和非堆内存)

图为Java虚拟机运行时的数据区:1.方法区也称&quot;永久代” 、“非堆”，它用于存储虚拟机加载的类信息、常量、静态变量、是各个线程共享的内存区域。默认最小值为16MB，最大值为64MB（未验证），可以通过-XX:PermSize 和 -XX:MaxPermSize 参数限制方法区的大小。运行时常量池：是方法区的一部分，Class文件中除了有类的版本、字段、方法、接口等描述信息外，还有一项...

2018-11-23 15:35:00 153

原创 Python2转Python3

经常会遇到一些python2的代码,但是需要python3 来执行,官方提供了一个便捷的方式,在我们的python安装目录下,{Python_HOME}\Tools\scripts里面。运行 2to3.py 脚本，打印如下：python 2to3.py --helpUsage: 2to3 [options] file|dir ...Options: -h, --help ...

2018-11-22 16:20:13 167

原创 RDD 5大特性在源码中的体现

/** * :: DeveloperApi :: * Implemented by subclasses to compute a given partition. */def compute(split: Partition, context: TaskContext): Iterator[T]对应 RDD特点二** * Implemented by sub...

2018-11-17 11:51:14 170

原创 RDD的5大特性

RDD5大特点 * Internally, each RDD is characterized by five main properties: * * - A list of partitions * - A function for computing each split * - A list of dependencies on other RDDs * - Optio...

2018-11-17 11:40:20 349

原创 SparkRDD简单理解

透过现象看本质,查看下本质的源码信息spark源码地址:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala从概念看RDD特性源码注解部分截图A Resilient Distributed Dataset (RDD)从代码的注解可以看到,RDD就...

2018-11-17 11:22:33 259

原创 Hive 实现WordCount

准备数据wd.txt创建Hive表create table ruoze_wc(sentence string);加载数据到表中load data local inpath '/home/hadoop/data/wd.txt' into table ruoze_wc;查看表数据执行hive使用 split 函数按照逗号切分单词使用explode 函数将切分好的单...

2018-10-28 18:11:03 112

原创 Hive常见函数

1.查看函数查看hive所有的函数show functions;查看函数信息desc function 函数名;查看函数详细信息desc function extended 函数名;2.时间函数显示当前日期示例显示当前时间函数说明示例显示当前时间的时间戳函数说明示例字符串转日期函数说明示例加天数函数说明示例减天数函数说明...

2018-10-28 17:56:12 146

原创 Hive DML 查询

聚合函数常见的聚合函数包括 max min sum avg count,这类聚合函数,都是会执行MapReduce的-- 求员工表中最大最小平均以及所有员工工资的和 select max(sal),min(sal),avg(sal),sum(sal) from ruoze_emp;分组查询出现在select中的字段，要么出现在group by子句中，要么出现在聚合函数中;...

2018-10-28 17:02:59 137

原创 Hive DML(数据导入导出)

DMLDML:Data Manipulation Language(数据管理语言)加载数据到表语法LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]从本地加载数据LOAD DATA LOCAL INPATH...

2018-10-25 17:57:28 160

原创 Hive 内部表与外部表

Hive中的表又分为内部表和外部表 ,Hive 中的每张表对应于HDFS上的一个文件夹，HDFS目录为：/user/hadoop/hive/warehouse/[databasename.db]/table内部表创建语句这里我们采用从之前表中复制表结构和数据create table ruoze_emp_managed as select * from ruoze_emp;查看表结构...

2018-10-25 17:15:25 254

原创 Hive DDL

Hive的数据在哪里??Hive的数据存放在HDFS之上（真实数据）Hive的元数据可以存放在RDBMS之上（元数据）Hive数据抽象结构图Database:Hive 中的Database 相当于是Hdfs中的一个文件夹Hive 默认自带一个default数据库默认数据库存放位置：/user/hive/warehouse位置是由参数决定的：hive.metastore.w...

2018-10-24 19:29:59 430

原创 Hive部署

下载wget http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz解压缩[hadoop@hadoop000 softwore]$ tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C …/app/配置环境变量修改个人环境变量 vi ~/.bash_profil...

2018-10-19 10:13:14 120

原创 Jps详解

Jps的位置[hadoop@hadoop000 hadoop-2.6.0-cdh5.7.0]$ which jps/usr/java/jdk1.7.0_80/bin/jps[hadoop@hadoop000 hadoop-2.6.0-cdh5.7.0]$ 从位置上来看,可以知道 jps来自java中

2018-10-18 23:50:24 378

原创 Hadoop中HDFS三个进程都以hadoop000启动

在部署完成Hadoop中的Hdfs和Yarn之后,发现启动Hdfs和Yarn的时候,NN和DN都是以机器名启动的而SNN是以0.0.0.0启动的,为了让HDFS三个进程都以机器名启动,修改配置文件.修改配置文件在官网中 http://archive-primary.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0/hadoop-project-d...

2018-10-18 23:08:39 894

原创 Yarn部署

修改etc/hadoop/mapred-site.xml复制 mapred-site.xml.templatecp mapred-site.xml.template mapred-site.xml修改mapred-site.xml&amp;lt;configuration&amp;gt; &amp;lt;property&amp;gt; &amp;lt;name&

2018-10-18 22:33:12 297

空空如也

空空如也