cqra94148-CSDN博客

转载针对flume中扇出复用（源exec）源码修改，并编译flume

一、编写目地最近研究Flume组件中关于复用数据，多路复用可以根据设定的信息，进一步分流。通过对flume组件的了解，除使用拦截器外，还可以对源码修改或自定义源。本次测试使用的是对源码修改。使用虚拟搭建flume + k...

2018-04-14 22:41:19 312

转载 Flume与Kafka整合--扇入、扇出功能整合，其中扇出包括：复制流、复用流

Flume与Kafka整合--扇入、扇出功能整合，其中扇出包括：复制流、复用流一、概念1、Flume：Cloudera 开发的分布式日志收集系统，是一种分布式，可靠且可用的服务，用于高效地收集，汇总和移动...

2018-03-31 11:33:41 367

转载 spark中配置启用LZO压缩

参考列表： centos7中安装LZO与配置，请参考：http://blog.itpub.net/31511218/viewspace-2151945/Hadoop配置LZO，请参考：http://blog.it...

2018-03-17 00:54:40 1045

转载配置Hadoop中启用LZO压缩

关于的centos7中安装LZO与配置，请参考：http://blog.itpub.net/31511218/viewspace-2151945/配置Hadoop中启用LZO压缩，并完成测试。步骤如下：一、配置had...

2018-03-17 00:40:36 365

转载 CentOS7中安装LZO压缩程序

一、准备工作：yum -y install lzo-devel zlib-devel gcc autoconf automake libtool二、安装LZO1、解压编译，并安装cd /opt/soft...

2018-03-17 00:34:11 1552

转载 hadoop2.6.0-cdh5.7.0编译，支持snappy、bzip2本地压缩

hadoop2.6.0-cdh5.7.0编译，支持snappy、bzip2本地压缩一、软件包：snappy-1.1.3.tar.gz下载地址：wget https://github.com/google/snappy...

2018-03-01 08:21:42 223

转载使用scala编写wordcount程序--从多个文件中读取计算，最终存入MySQL数据库

啥也不说，直接上程序吧，嘻嘻。。。。。。。。一、公共类点击(此处)折叠或打开 package com.ruozedata.scalawroks ...

2018-02-12 16:00:49 465

转载远程启动HADOOP+YARN集群Shell脚本

一、创建启动HADOOP+YARN脚本1、创建脚本vi start-hadoop.sh点击(此处)折叠或打开 #!/bin/bash ...

2018-02-10 14:44:42 927

转载使用Hive中自定义UDAF函数实现统计区域产品用户访问排名

UDAF实现方法:1，用户的UDAF必须继承了org.apache.hadoop.hive.ql.exec.UDAF；2，用户的UDAF必须包含至少一个实现了org.apache.hadoop.hive.ql.exec...

2018-01-26 18:42:28 179

转载【Sqoop+Hive+MySQL】用户某时间范围，区域最受欢迎的Top N的产品

一、创建配置文件【1、创建table_env文件，增加如下内容】执行命令：vi table_env内容：点击(此处)折叠或打开 city_i...

2018-01-20 23:34:21 113

转载 sqoop job操作及执行Job时如何省略输入MySQL保存密码

一、删除Job 点击(此处)折叠或打开 sqoop job \ --delete testjob ...

2018-01-15 19:10:58 214

转载 sqoop export 数据覆盖更新

一、Sqoop export简介 Sqoop export工具被用来将文件集合从HDFS中导入到关系型数据库中。目标表必须事先已经在数据库中创建好。输入文件根据用户指定的分隔符被读取解析成记录集。Sqoop默认的是将这些操...

2018-01-15 17:41:16 696

转载 Hive中添加自定义函数(UDF)方法及实践

环境介绍：CentOS7+hive-1.1.0-cdh5.7.0+Maven3.3.91、下载源码 hive-1.1.0-cdh5.7.0-src.tar.gz http://archive.clou...

2018-01-12 15:54:00 2469

转载 Hive中配置与编写自定义UDF函数

环境介绍：CentOS7+hive-1.1.0-cdh5.7.0+IntelliJ IDEA+Maven3.3.91、创建工程打开IntelliJ IDEA File-->New-->Pro...

2018-01-12 15:50:52 387

转载 Hive的三种Join方式

转载：https://www.cnblogs.com/raymoc/p/5323824.html Common/Shuffle/Reduce Join Reduce Join在Hive中也叫Comm...

2018-01-11 15:21:25 105

转载 Hive参数配置调优

Hive参数配置调优　　hive通过将查询划分成一个或多个MapReduce任务达到并行处理的目的。每个任务都可能具有多个mapper和reducer任务，其中至少有一些是可以并行执行的。...

2018-01-11 15:10:55 120

转载 Hive中原理及使用MAP JOIN

Hive中简介及使用MAP JOIN Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下mapjoin的原理和机...

2018-01-11 15:08:40 503

转载 Hive学习之更改表的属性

1、修改表名 alter table table_name rename to new_table_name; 例1：alter table ruoze_emp rename to emp;2、修改列名...

2018-01-08 20:59:49 530

转载 MySQL字符集概念及设置方法

一、字符集基本概念1.字符(Character)是指人类语言中最小的表义符号。例如’A'、’B'等；2.给定一系列字符，对每个字符赋予一个数值，用数值来代表对应的字符，这一数值就是字符的编码(Encoding)。例如，我...

2018-01-03 20:35:14 195

转载 Linux下如何查看版本信息

Linux下如何查看版本信息，包括位数、版本信息以及CPU内核信息、CPU具体型号等等，整个CPU信息一目了然：1、Linux查看版本当前操作系统内核信息 [root@spark220 ~]# uname -a...

2018-01-02 09:51:21 233

转载 Linux下启动伪分布式HADOOP && MySQL命令及脚本

一、启动Hadoop、MySQL命令及脚本：[hadoop@spark220 app]$ vi start-service.shsource ~/.bash_profilesudo su - mysqladmin ...

2018-01-02 09:41:30 358

转载 Linux&&Hadoop2.x下编译hive1.1.0-cdh5.7.0与配置安装实战

一、首先下载hive-1.1.0-cdh5.7.0的源码压缩包下载地址：wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0-src.tar.gz...

2018-01-02 08:27:43 142

转载 HIVE实现wordcount过程

1、建表并关联数据：进入hive命令行：hive执行：create external table wordcounts(line string) row format delimited fields termi...

2017-12-28 14:27:51 274

转载 CentOS安装使用二进制方式mysql5.6笔记

CentOS安装使用二进制方式mysql5.6笔记 1、上传安装包--使用root用户2、解压安装包--使用root用户 cd /usr/local/ tar xzvf mysql-5.6.23...

2017-12-19 11:36:52 101

转载 CentOS7下部署Hadoop2.X--伪分布模式

一、部署JAVA--(使用root用户) 1、上传Oracle公司的Java组件--jdk1.8.0_151 A）、cd /uar/java B）、执行rz -be->选择本地JDK组件->...

2017-12-15 10:12:32 162

cqra94148的博客