- 博客(89)
- 资源 (1)
- 收藏
- 关注
原创 CDH集成Phoenix
Phoneix是基于Hbase之上的SQL工具,可以使用标准的SQL语法来操作Hbase。网上看了很多集成Phoenix的大多是下载安装包解压配置参数啥的,如果没有和自己环境相匹配的那么就要去编译了。 今天给大家带来一种使用parcerls包方式将Phoenix集成到CDH5.10.0集群的方式。一 、下载 Phoenix DownloadCLABS_PHOENIX-4.7.0-1.clabs
2017-10-31 11:10:49
1520
原创 Hbase部署
一、下载与Hadoop版本对应的hbase包,我的hadoop是2.6.0-cdh5.7.0 所以我下载的hbase版本是hbase-1.2.0-cdh5.7.0。二、解压到指定目录tar -zxcf hbase-1.2.0-cdh5.7.0.tar.gz -C /opt/app/配置环境变量export HBASE_HOME=/opt/app/hbase-1.2.0-cdh5.7.0expor
2017-10-27 14:57:29
533
原创 MySQL(Data)->Hive (Analyze&Statistics)->MySQL
目标将MySQL的数据拿到Hive进行分析统计,将统计结果返回到MySQL。分析: 1) 在hive中创建一个emp_etl对应的表 2) 使用sqoop将mysql中的emp_etl表导入到hive表中 3) 在hive中进行统计分析(每个部门多少人),然后结果写入到hive结果表中 4) 将hive结果表通过sqoop导出到mysql表中 5)shell封装整个过程,通过调度工具定时调
2017-10-23 16:44:11
522
原创 SQOOP从MySQL导入数据到Hive
一、导入Hive表时自动创建表 1、执行sqoop语句sqoop import \--connect jdbc:mysql://hadoop001:3306/sqoop \--username root \--password 123456 \--table emp_etl \-m 1 \--hive-import \--create-hive-table \--hive-tab
2017-10-22 22:31:15
10077
原创 SQOOP从HDFS导出数据到MySQL
一、HDFS上的数据查看[root@hadoop001 opt]# hadoop fs -text emp.txt /data/emp.txt1250 yangyamei doctor1251 zhangzhenxing doctor1261 zhangjun nurse1265 Bob doctor二、MySQL数据库创建接收数
2017-10-22 21:01:30
3944
原创 Scala操作MySQL数据库
一、工具IDEA+MAVEN二、Pom文件添加依赖 1、更改成自己的scala版本<properties> <scala.version>2.11.8</scala.version> </properties>2、添加驱动依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-ja
2017-10-21 20:26:35
1934
转载 Hbase优化
1. 垃圾回收优化1)首先是设置新生代大小的参数,不能过小,过小则导致年轻代过快成为老生代,引起老生代产生内存随便。同样不能过大,过大导致所有的JAVA进程停止时间长。-XX:MaxNewSize=256m-XX:NewSize=256m这两个可以合并成为-Xmn256m这一个配置来完成。2)其次是设置垃圾回收策略:-XX:+UseParNewGC -XX:+UseConcMarkSweep
2017-10-17 18:19:07
401
原创 Cannot open channel to 3 at election address 机器名/IP:端口
在集群中填加了zookeeper服务后报红,点进去后发现,有一台机器为未知状态 但是在本机上查看却是正常的 然后百度、谷歌各种说法,都不靠谱。最后发现是防火墙没有关,作为leader的hadoop001无法检测hadoop003server的状态,导致两者显示不一致。
2017-10-17 15:35:15
2702
原创 SQOOP Job使用
一、SQOOP Job 使用方法查看sqoop job --helpusage: sqoop job [GENERIC-ARGS] [JOB-ARGS] [-- [] [TOOL-ARGS]]Job management arguments: --create Create a new saved job --delete
2017-10-10 23:31:21
4338
原创 SQOOP从MySQL导入数据到HDFS
一、Sqoop导入的参数是import可以通过sqoop import –help查看import的具体用法[root@hadoop001 conf]# sqoop import --help参数太多就不列举了,大家可以自己去测试看看。二、导入数据 1、执行以下命令 sqoop import –connect jdbc:mysql://hadoop001:3306/sqoo
2017-10-10 13:25:43
4632
原创 SQOOP部署及简单使用
前言㈠Sqoop官网释义Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.⑴Sqoop分Sqoop1(1.4.X)和Sqoop2(1.99.X
2017-10-10 11:13:06
678
原创 IDEA构建UDF函数&注册到Hive源码&编译&验证及使用
一、注册到Hive源码目的 在上一篇UDF函数博文中说过,Hive自带的函数并不能满足日常工作,有很多功能需要我们自己去编写。对于经常使用的功能就希望注册到Hive当中和Hive的函数一样使用了。二、IDEA构建UDF函数请参考IDEA构建Hive的UDF函数三、注册到Hive源码 1、下载Hive源码2、将Hive源码放到/opt/sourcecode目录下并解压[root@hadoop001
2017-10-09 16:13:42
1937
原创 Hive静态分区和动态分区
一、静态分区 1、创建分区表hive (default)> create table order_mulit_partition( > order_number string, > event_time string > ) > PARTITIONED BY(event_month st
2017-10-08 13:34:32
3418
1
原创 Hive创建分区表
一、创建分区表hive (default)> create table order_partition( > order_number string, > event_time string > PARTITIONED BY(event_month string) > row format d
2017-10-07 23:31:24
7202
原创 Java API操作Hive
官网地址 https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients#HiveServer2Clients-JDBC一、启动hiveserver2 使用Java API操作hive之前必须启动hiveserver2(服务都没起,客户端怎么可能访问的到呢?)启动命令[root@hadoop001 bin]# hivese
2017-10-07 18:57:19
1192
原创 Hive内部表与外部表(外部表使用场景)
Managed and External TablesBy default Hive creates managed tables, where files, metadata and statistics are managed by internal Hive processes. A managed table is stored under the hive.metastore.wareh
2017-10-07 17:07:22
7409
原创 IDEA构建Hive的UDF函数
一、编译目的 hive自带了很多内置函数,但是这些函数并不能满足我们的日常工作。当我们频繁需要使用一个函数而hive又没有时就需要我们自定义函数了。二、UDF(user defined function)函数构建步骤 1、自定义一个Java类 2、继承UDF类 3、重写evaluate方法 4、打成jar包 6、在hive执行add jar方法 7、在hive执行创建模板函
2017-10-07 13:59:57
6347
原创 Hive简单部署
一、下载hive1、/opt/software/目录下 weget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz2、解压到/opt/app/路径下[root@hadoop001 software]# tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C /opt/app/3、hive-1
2017-09-24 02:19:26
482
原创 Crontab详解
使用crontab你可以在指定的时间执行一个shell脚本或者一系列Linux命令。例如运维人员可以写一下备份数据库的任务使其每天都运行一、 crontab设置格式:{minute} {hour} {day} {month} {day-of-week} {script} minute: 区间为 0 – 59 (每分钟用*或者 */1表示)hour: 区间为0 – 23 (0表示0点)
2017-09-23 15:56:37
612
原创 Crontab 设置定时抽取任务
一、写好需要执行的抽数脚本文件[root@hadoop02 importDataToHbase]# vim HDR_EMR_CONTENT.sh#! /bin/bashsqoop import --connect 'jdbc:sqlserver://192.168.1.40; username=sa; password=mandala; databasename=mandala' --quer
2017-09-22 19:36:10
1204
原创 Hive Common Join VS Map Join
以下是个人理解,如有偏差,望大家多多指点!一、Common Join(也称之为shufflejoiin/reducejoin) 1、Common Join图解 a>首先会启动一个Task,Mapper会去读表HDFS上两张X/Y表中的数据 b>Mapper处理过数据再经过shuffle处理 c>最后由reduce输出join结果2、举例 Table A ID NAME
2017-09-21 19:06:25
626
转载 Eclipse开发Webservice
1.参考文献:1.利用Java编写简单的WebService实例 http://nopainnogain.iteye.com/blog/7915252.Axis2与Eclipse整合开发Web Service http://tech.ddvip.com/2009-05/1242968642120461.html3.http://blog.csdn.net/lightao220/articl
2017-09-18 17:04:56
901
原创 MySQL三种安装方式
在这里介绍一下MySQL的三种安装方式 1、RPM包安装 2、Yum方式安装 3、编译安装一、RPM包安装 1、首先下载以下包 MySQL-server-5.6.15-1.el6.x86_64.rpm MySQL-client-5.6.15-1.el6.x86_64.rpm 链接:http://pan.baidu.com/s/1dFtkTXZ 密码:pngr 上传至/opt/soft
2017-09-17 23:29:13
1071
原创 SSH远程控制脚本
#!/bin/bash#列出要控制的机器名 ip_array=("hadoop02" "hadoop03" "hadoop04" "hadoop05" "hadoop06" "hadoop07" "hadoop08" "hadoop09") #以什么用户执行 user="root" #本地通过ssh执行远程服务器的脚本 for ip in ${ip_arra
2017-09-17 19:28:40
554
原创 Hive四种数据导入方式
Hive常见数据导入方式: 1、从本地导入数据到hive表 2、从hdfs导入数据到hive表 3、从其他表导入数据到hive表 4、创建表时从其他表导入数据到hive表一、首先看前两种方式 官方导入语法格式LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=va
2017-09-17 19:14:14
2687
原创 Hive表的操作
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable从官网得知表的操作语法如下CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]t
2017-09-17 11:55:03
475
原创 Hive数据库操作
Hive部署完成后我们就要来使用了一、数据库创建CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];我们可以按照官网给出的
2017-09-17 00:44:59
513
原创 Hive2.1.1环境部署
一、Hive包的下载 到http://mirror.bit.edu.cn/apache/hive/hive-2.1.1/网址下载 apache-hive-2.1.1-bin.tar.gz二、部署需求Installation and ConfigurationYou can install a stable release of Hive by downloading a tarball, or
2017-09-16 23:46:07
490
原创 CentOS6.5环境部署Hadoop2.8.1集群(HA)
部署前提 1、三台主机安装JDK1.7 2、关闭防火墙、selinux 3、配置静态IP一、所用软件 hadoop-2.8.1 zookeeper-3.4.6 hadoop-2.8.1下载地址 http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.1/ zookeeper-3.4.6 下载地址 http://mirrors
2017-09-12 13:09:27
797
原创 Hadoop(HA)四个核心配置文件
一、core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <!--Yarn 需要使用 fs.defaultFS 指定NameNode URI --> <property>
2017-09-11 18:50:16
3476
原创 HIVE2.X启动报错 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaS
启动HIVE错误信息如下Logging initialized using configuration in jar:file:/opt/soft/hive/lib/hive-common-2.1.1.jar!/hive-log4j2.properties Async: trueException in thread "main" java.lang.RuntimeException: org.a
2017-09-11 15:09:26
1660
原创 SSH互相信任关系配置
一、机器规划 192.168.95.10 hadoop000 192.168.95.20 hadoop001 192.168.95.30 hadoop002 准备三台虚拟机IP和主机名配置如上.且将以上对应关系添加到/etc/hosts文件中[root@hadoop000 .ssh]# cat /etc/hosts127.0.0.1 localhost localhost.locald
2017-09-10 19:51:00
825
转载 Yarn资源配置说明
Yarn最佳实践转载:http://blog.csdn.NET/jiangshouzhuang/article/details/52595781本篇博客,我将讨论Yarn资源管理方面的最佳实践,如果有写的不对的地方,请朋友们多多指教。本篇文章也参考了网上的一些资料。 Hadoop2中引入Yarn组件,将MRv2(Yarn)分为两个主要组件,一个是资源管理,一个是作业调度和监控,并且使用独立的守护
2017-09-08 17:39:42
6677
原创 MySQL练习笔记
1、mysql登录mysql -u用户名 -phadoop001:mysqladmin:/usr/local/mysql:>mysql -uroot -pEnter password:输入密码即可进去mysql在这里大家一定很好奇我的为什么是hadoop001:mysqladmin:/usr/local/mysql:>而不是[root@hadoop001 ~]#其实这个是我在编译mysql后在
2017-09-06 22:51:37
371
原创 MySQL数据库查看存储过程和函数笔记
一.查询数据库中的存储过程和函数 方法一:select `name` from mysql.proc where db = 'your_db_name' and `type` = 'PROCEDURE' //存储过程select `name` from mysql.proc where db = 'your_db_name' and `type` = 'FUNCTION' //函数方法二:
2017-09-06 21:54:19
1155
原创 基于CentOS6.5编译Spark2.2.0源码
一、创建hadoop用户及目录1 创建用户[root@hadoop000 ~]# useradd hadoop2 设置密码[root@hadoop000 ~]# passwd hadoop3 切换用户 hadoop[root@hadoop000 ~]# su - hadoop[hadoop@hadoop000 ~]$ pwd/home/hadoop4 创建目录[hadoop@hadoop
2017-09-06 12:16:36
653
原创 Hadoop学习之MapRduce笔记
一、MapRedduce1和MapReduce2 1、功能 MapReduce分两个版本,MR1和MR2 MR1是Hadoop1.X中的,包括计算+资源调度两个功能 MR2是Hadoop2.X中的,只有计算功能,资源调度被剥离成单独的组件YARN了2、进程 MR1有具体进程 JobTracker TaskTracker MR2没有具体进程,而且集群中不需要部署。只需将写好的代码jar
2017-09-04 11:44:44
713
原创 Hadoop学习之HDFS读流程
HDFS读流程图 假设需要读取HDFS根目录下的bigdata.log文件,使用如下命令hadoop fs -cat /bigdata.log整个流程如下:1、客户端会调用DistributedFileSystem.open方法与NameNode进行RCP通信,NameNode会返回该文件的部分或全部的 block列表(也包含该列表各block的分布在Datanode地址的列表),也就是返回FSD
2017-08-29 23:21:51
427
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅