2017年10月_A_ChunUnique

原创 CDH集成Phoenix

Phoneix是基于Hbase之上的SQL工具，可以使用标准的SQL语法来操作Hbase。网上看了很多集成Phoenix的大多是下载安装包解压配置参数啥的，如果没有和自己环境相匹配的那么就要去编译了。今天给大家带来一种使用parcerls包方式将Phoenix集成到CDH5.10.0集群的方式。一、下载 Phoenix DownloadCLABS_PHOENIX-4.7.0-1.clabs

2017-10-31 11:10:49 1486

原创 Hbase部署

一、下载与Hadoop版本对应的hbase包，我的hadoop是2.6.0-cdh5.7.0 所以我下载的hbase版本是hbase-1.2.0-cdh5.7.0。二、解压到指定目录tar -zxcf hbase-1.2.0-cdh5.7.0.tar.gz -C /opt/app/配置环境变量export HBASE_HOME=/opt/app/hbase-1.2.0-cdh5.7.0expor

2017-10-27 14:57:29 514

原创 MySQL(Data)->Hive (Analyze&Statistics)->MySQL

目标将MySQL的数据拿到Hive进行分析统计，将统计结果返回到MySQL。分析： 1) 在hive中创建一个emp_etl对应的表 2) 使用sqoop将mysql中的emp_etl表导入到hive表中 3) 在hive中进行统计分析(每个部门多少人)，然后结果写入到hive结果表中 4) 将hive结果表通过sqoop导出到mysql表中 5)shell封装整个过程，通过调度工具定时调

2017-10-23 16:44:11 503

原创 SQOOP从MySQL导入数据到Hive

一、导入Hive表时自动创建表 1、执行sqoop语句sqoop import \--connect jdbc:mysql://hadoop001:3306/sqoop \--username root \--password 123456 \--table emp_etl \-m 1 \--hive-import \--create-hive-table \--hive-tab

2017-10-22 22:31:15 9818

原创 SQOOP从HDFS导出数据到MySQL

一、HDFS上的数据查看[root@hadoop001 opt]# hadoop fs -text emp.txt /data/emp.txt1250 yangyamei doctor1251 zhangzhenxing doctor1261 zhangjun nurse1265 Bob doctor二、MySQL数据库创建接收数

2017-10-22 21:01:30 3890

原创 Scala操作MySQL数据库

一、工具IDEA+MAVEN二、Pom文件添加依赖 1、更改成自己的scala版本<properties> <scala.version>2.11.8</scala.version> </properties>2、添加驱动依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-ja

2017-10-21 20:26:35 1888

转载 Hbase优化

1. 垃圾回收优化1）首先是设置新生代大小的参数，不能过小，过小则导致年轻代过快成为老生代，引起老生代产生内存随便。同样不能过大，过大导致所有的JAVA进程停止时间长。-XX:MaxNewSize=256m-XX:NewSize=256m这两个可以合并成为-Xmn256m这一个配置来完成。2）其次是设置垃圾回收策略：-XX:+UseParNewGC -XX:+UseConcMarkSweep

2017-10-17 18:19:07 384

原创 Cannot open channel to 3 at election address 机器名/IP:端口

在集群中填加了zookeeper服务后报红，点进去后发现，有一台机器为未知状态但是在本机上查看却是正常的然后百度、谷歌各种说法，都不靠谱。最后发现是防火墙没有关，作为leader的hadoop001无法检测hadoop003server的状态，导致两者显示不一致。

2017-10-17 15:35:15 2653

原创 SQOOP Job使用

一、SQOOP Job 使用方法查看sqoop job --helpusage: sqoop job [GENERIC-ARGS] [JOB-ARGS] [-- [] [TOOL-ARGS]]Job management arguments: --create Create a new saved job --delete

2017-10-10 23:31:21 4309

原创 SQOOP从MySQL导入数据到HDFS

一、Sqoop导入的参数是import可以通过sqoop import –help查看import的具体用法[root@hadoop001 conf]# sqoop import --help参数太多就不列举了，大家可以自己去测试看看。二、导入数据 1、执行以下命令 sqoop import –connect jdbc:mysql://hadoop001:3306/sqoo

2017-10-10 13:25:43 4590 1

原创 SQOOP部署及简单使用

前言㈠Sqoop官网释义Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.⑴Sqoop分Sqoop1(1.4.X)和Sqoop2(1.99.X

2017-10-10 11:13:06 650

原创 IDEA构建UDF函数&注册到Hive源码&编译&验证及使用

一、注册到Hive源码目的在上一篇UDF函数博文中说过，Hive自带的函数并不能满足日常工作，有很多功能需要我们自己去编写。对于经常使用的功能就希望注册到Hive当中和Hive的函数一样使用了。二、IDEA构建UDF函数请参考IDEA构建Hive的UDF函数三、注册到Hive源码 1、下载Hive源码2、将Hive源码放到/opt/sourcecode目录下并解压[root@hadoop001

2017-10-09 16:13:42 1908

原创 Hive静态分区和动态分区

一、静态分区 1、创建分区表hive (default)> create table order_mulit_partition( > order_number string, > event_time string > ) > PARTITIONED BY(event_month st

2017-10-08 13:34:32 3391 1

原创 Hive创建分区表

一、创建分区表hive (default)> create table order_partition( > order_number string, > event_time string > PARTITIONED BY(event_month string) > row format d

2017-10-07 23:31:24 7179

原创 Java API操作Hive

官网地址 https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients#HiveServer2Clients-JDBC一、启动hiveserver2 使用Java API操作hive之前必须启动hiveserver2（服务都没起，客户端怎么可能访问的到呢？）启动命令[root@hadoop001 bin]# hivese

2017-10-07 18:57:19 1149

Managed and External TablesBy default Hive creates managed tables, where files, metadata and statistics are managed by internal Hive processes. A managed table is stored under the hive.metastore.wareh

2017-10-07 17:07:22 7365

原创 IDEA构建Hive的UDF函数

一、编译目的 hive自带了很多内置函数，但是这些函数并不能满足我们的日常工作。当我们频繁需要使用一个函数而hive又没有时就需要我们自定义函数了。二、UDF（user defined function）函数构建步骤 1、自定义一个Java类 2、继承UDF类 3、重写evaluate方法 4、打成jar包 6、在hive执行add jar方法 7、在hive执行创建模板函

2017-10-07 13:59:57 6281

UniqueChunBlog