自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(350)
  • 资源 (3)
  • 收藏
  • 关注

原创 hive 中 函数 last_day的使用, 获取每个月最后一天

last_day获取每个月最后一天select last_day('2020-10-01')2020-10-31SELECT last_day('2003-03-15 01:22:33') 2003-03-31

2020-11-25 14:14:50 29

原创 sql语句-create table XXX select 和 insert into XXX select 语句的使用

无需先建表,并将select的查询结果导入到新表中CREATE TABLE new_emp AS SELECT * FROM emp WHERE deptno IN(20, 30);将select查询出的数据,插入到 new_emp 中INSERT INTO new_emp SELECT * FROM emp WHERE deptno = 10;

2020-11-13 14:17:35 18

原创 sql语句-子查询 -单行多列,ANY,ALL,JOIN等地方的使用

子查询可以返回一行多列的数据SELECT * FROM emp WHERE (job, sal) = (SELECT job, sal FROM emp WHERE ename = 'SCOTT');ANY 关键字ANY :等于其中的任意一个就符合条件SELECT * FROM emp WHERE sal =ANY(SELECT MIN(sal) FROM emp WHERE deptno IS NOT NULL GROUP BY deptno);ALL 关键词<>ALL

2020-11-13 13:46:16 27

原创 DbVisualizer 使用Impala驱动连接Hive数据库,并带有kerberos认证

impala驱动文件使用Cloudera提供的Cloudera Impala JDBC库,从以下路径下载。https://www.cloudera.com/downloads/connectors/impala/jdbc/2-6-3.html下载后解压,使用JDBC41的jar包作为驱动包(如下图所示)连接字符串:jdbc:impala://bdcloud03:10000/ods连接字符串:jdbc:impala://bdcloud02:21050/default;AuthMech=1;Krb.

2020-11-12 18:37:42 18

转载 hive 日期转时间戳函数之unix_timestamp,时间戳转日期函数之from_unixtime

一. 日期>>>>时间戳默认返回的时间戳都是 10 位,如果是 13位,要特殊处理,看下面1.unix_timestamp() 获取当前时间戳例如:select unix_timestamp() --15658583892.unix_timestamp(string timestame) 输入的时间戳格式必须为'yyyy-MM-dd HH:mm:ss',如不符合则返回null例如:select unix_timestamp('2019-08-15 16...

2020-11-09 11:02:54 25

原创 hue调度shell脚本,shell脚本操作hive表,shell脚本里用spark-submit 调用java程序 [生产环境使用]

executeAllConvert.sh ,hue调用此shell文件,这个文件是调用的入口文件#!/bin/sh -ldir=$(cd "$(dirname "$0")";pwd)source ./env.confspark-submit --keytab /var/lib/hadoop-hdfs/hdfs.keytab --principal hdfs/hdfs@KIUKIANG.COM --packages com.alibaba:fastjson:1.2.46,org.postgre

2020-11-06 22:09:54 26

原创 hue修改oozie的workflow工作流和Schedules任务,修改不生效的解决办法

在hue可视化界面,编辑oozie的workflow工作流和Schedules任务,界面上明明已经添加了某个子workflow,或添加了shell命令任务,或是明明删除了某个节点,因为某些原因没有生效,导致报错的解决办法直接修改此工作流的workflow.xml文件也可以直接点开始运行,查看生成的oozie的workflow.xml文件是否更新...

2020-11-06 21:41:38 16

原创 MySQL 对查询的结果集添加自增序号,两种写法

在MySQL中,当我们所要查询的结果集没有ID字段时,为方便前台展示等业务需求,需要添加一个自增的序号字段(ID)。语法如下:SELECT (@i:=@i+1) 别名1,表字段信息 FROM 表名, (SELECT @i:=0) AS 别名2代码示例,同时结合分页使用写法1SET @i:=0;SELECT (@i:=@i+1) AS RowNum, A.* FROM t_prize_log A ORDER BY A.ese_id DESC LIMIT 0, 10;写法2SELE

2020-11-04 15:07:49 30

转载 mysql中find_in_set()函数的使用,和in的区别,和like的区别

首先举个例子来说:有个文章表里面有个type字段,它存储的是文章类型,有 1头条、2推荐、3热点、4图文等等 。现在有篇文章他既是头条,又是热点,还是图文,type中以 1,3,4 的格式存储。那我们如何用sql查找所有type中有4的图文类型的文章呢??这就要我们的 find_in_set 出马的时候到了。以下为引用的内容:select * from article where FIND_IN_SET('4',type)---------------------------------..

2020-11-04 14:11:33 30

转载 MySQL DATE_SUB(date,INTERVAL expr type)函数 从日期减去指定的时间间隔

定义和用法DATE_SUB() 函数从日期减去指定的时间间隔。语法DATE_SUB(date,INTERVAL expr type)date参数是合法的日期表达式。expr参数是您希望添加的时间间隔。type 参数可以是下列值:Type 值 MICROSECOND SECOND MINUTE HOUR DAY WEEK MONTH QUARTER YEAR SECOND_MICROSECOND MINUTE_MICROSECOND ..

2020-11-04 13:40:35 31

原创 HUE查看oozie的正在执行的workflow任务的运行情况,状态等

注意:右上角 有个jobs,不要从这进入,很难查看到每个执行的状态。

2020-11-02 12:25:03 45

原创 spark-sql 操作 hdfs文件,服务器有kerberos安全认证的

前提:程序是放在服务器上运行,而非在自己电脑本机环境下运行1spark-sql 自己写的代码程序,不做任何改动2 关键是 spark-submit的--keytab,--principal参数如spark-submit --keytab /var/lib/hadoop-hdfs/hdfs.keytab --principal hdfs/hdfs@BAIDU.COM --class cn.baidu.service.ApplicationMain ./codeConvert-etl-1.0-...

2020-10-30 21:20:15 20

转载 spark-submit 应用程序第三方jar文件

要点导航第一种方式:打包到jar应用程序 第二种方式:spark-submit 参数 --jars 第三种方式:spark-submit 参数 --packages 第四种方式:添加到spark的环境变量回到导航第一种方式:打包到jar应用程序操作:将第三方jar文件打包到最终形成的spark应用程序jar文件中应用场景:第三方jar文件比较小,应用的地方比较少回到导航第二种方式:spark-submit 参数 --jars操作:使用spark-submit提交命令的参数

2020-10-30 21:12:48 16

原创 maven构建可执行的jar包,打jar包,设置运行的主方法,不包括相关的依赖

<build> <plugins> <!-- 打包jar文件时,配置manifest文件,加入lib包的jar依赖 --> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-jar-plugin</artifactId>..

2020-10-30 20:59:35 8

原创 HUE修改oozie的workflow任务

保存的workflow一般存放在这里查看哪个具体的workflow任务在什么位置,可以看下这里的详细

2020-10-27 20:25:46 24

转载 Hive内嵌函数大全:条件判断函数IF,COALESCE,CASE WHEN

1.Hive所有关于条件判断内嵌函数 Return Type Name(Signature) Description T if(boolean testCondition, T valueTrue, T valueFalseOrNull) Returns valueTrue when testCondition is true, returns valueFalseOrNull otherw

2020-10-25 15:47:29 43

原创 Hive-load data加载数据到表中,insert overwrite导出数据到linux或hdfs中

hdfs常用命令,可查看博文hdfs常用命令//从本地加载数据到表,linux上的文件不会丢失,相当于是复制 ,这是 追加的模式load data local inpath '/data/log/1.txt' into table employee;//从本地加载数据到表,linux上的文件不会丢失,相当于是复制 ,overwrite 是 覆盖的模式load data local inpath '/data/log/2.txt' overwrite into table t1//从hdfs.

2020-10-24 21:23:56 30

原创 shell入门-常见符号的 >,>>,;,|,&&,||,2>/dev/null 的运用

> #会覆盖原有的内容[hdfs@kncloud03 tmp]$ echo 11 > 1.txt[hdfs@kncloud03 tmp]$ cat 1.txt11[hdfs@kncloud03 tmp]$ echo 22 > 1.txt[hdfs@kncloud03 tmp]$ cat 1.txt22>> #不会覆盖原有的内容,追加的模式[hdfs@kncloud03 tmp]$ echo 33 >> 1.txt[hdf...

2020-10-23 15:32:39 17

原创 shell入门-常见变量 $0,$1,$2,$*,$#,$? 使用方法

$0 #返回脚本的文件名称$1-$9 #返回对应的参数值$* #返回所有的参数值是什么$# #返回参数的个数和代码示例#!/bin/bashecho "脚本:$0"echo "第一个参数是:$1"echo "第二个参数是:$2"echo "一共有多少参数:$#"echo "这些参数是什么:$*"执行脚本,运行结果如下sh /tmp/1.sh aa bb cc脚本:/tmp/1.sh第一个参数是:aa第二个参数是:bb一共有多少参数...

2020-10-23 14:47:00 23

转载 hive-分析函数 LAG、LEAD、FIRST_VALUE和LAST_VALUE OVER(PARTITION BY order by) 的使用

OVER(PARTITION BY order by)函数的其它用法,可查看博文https://blog.csdn.net/qq_41712271/article/details/109224538创建表和数据cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie1,2015-04-10 10:50:05,url6cookie1,2015-0.

2020-10-22 18:20:47 36

转载 hive-OVER(PARTITION BY order by)函数 的使用

准备测试数据dss,1,95fda,1,80ffd,1,95cfe,2,74gds,2,923dd,3,78adf,3,45asdf,3,55ddd,3,99gf,3,99use test;create external table T2_TEMP(name string, class string, sroce int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n

2020-10-22 16:32:52 42

原创 hive-字符串查找函数 instr和locate

找不到都是返回0字符串查找函数: instr语法: instr(string str, string substr)返回值: int说明:返回字符串 substr 在 str 中首次出现的位置举例:hive> select instr('abcdf','df') from test;OK4字符串查找函数:locate语法: locate(string substr, string str[, int pos])返回值: int说明:返回字符串 substr 在 str 中.

2020-10-22 14:50:03 135

原创 HIVE-row_number() OVER(PARTITION BY)函数-先分组,取每个分组的前几个

select row_number() over (partition by month order by ref_host_cnts desc)partition:按照month分成区块order by :排序是在partition分成的区块中分别进行。row_number():对各个分区分别添加编号,类似于rownum的递增序列准备表和测试数据create external table product_1(day_id string, mac_id int, mac_colo

2020-10-22 14:31:37 44

原创 HIVE-执行命令的几种方式 和 hive -e 和hive -f的使用

第一种,在bash中直接通过hive -e命令,并用 > 输出流把执行结果输出到制定文件hive -e "select * from test.hour_rate2 where year='2019'" > /tmp/output_1.txt第二种,在bash中直接通过hive -f命令,执行文件中一条或者多条sql语句。并用 > 输出流把执行结果输出到制定文件hive -f /tmp/exer.sql > /tmp/output_3.txtexer.sql 文

2020-10-22 11:32:34 59

原创 sqoop导入命令,从关系型数据库到hive

参数说明,查看博文https://blog.csdn.net/qq_41712271/article/details/101152891把MySQL数据库中的某个表数据导入到Hive中指定行分隔符和列分隔符,指定hive-import,指定覆盖导入,指定自动创建hive表,指定表名,指定删除中间结果数据目录sqoop import \--connect jdbc:mysql://127.0.0.1:3306/linshi_1 \--username root \--passwor.

2020-10-21 21:22:55 38

原创 sqoop 入门-最基本命令

sqoop查看帮助sqoop helpsqoop命令操作符--help如sqoop export --help列出MySQL数据有哪些数据库sqoop list-databases \--connect jdbc:mysql://127.0.0.1:3306/ \--username root \--password 123456 列出MySQL中的某个数据库有哪些数据表sqoop list-tables \--connect jdbc:mysql://127....

2020-10-21 21:09:42 14

转载 hdfs dfs -ls 与 hdfs dfs -ls / 区别

hdfs dfs -ls 默认目录是在hdfs文件系统的/user/用户名(一般用户名为hadoop或hdfs)hdfs dfs -ls == hdfs dfs -ls /user/hadoophdfs dfs -ls[hadoop@hadoop000 bin]$ hdfs dfs -lsFound 7 itemsdrwxr-xr-x - hadoop supergroup 0 2018-11-01 06:49 QuasiMonteCarlo_154102614519.

2020-10-21 20:25:58 20

转载 hive中round、floor、ceil区别及用法

浮点数四舍五入:select round(1.4) : 1.0select round(1.5) : 2.0浮点数取两位小数:select round(1.23454,2) : 1.23select round(1.04234,2) : 1.04select round(1.04534,2) : 1.05小数点位数是负数,比如-2,那么小数点前2位为0,且进行四舍五入计算。select round(1213232,-2) : 1213200select round(12

2020-10-20 18:53:41 23

转载 MySQL IFNULL() 函数

IFNULL() 函数用于判断第一个表达式是否为 NULL,如果为 NULL 则返回第二个参数的值,如果不为 NULL 则返回第一个参数的值。IFNULL() 函数语法格式为:IFNULL(expression, alt_value)如果第一个参数的表达式 expression 为 NULL,则返回第二个参数的备用值。参数说明:参数 描述 expression 必须,要测试的值 alt_value 必须,expression 表达式为 NULL 时返回的值

2020-10-20 18:39:30 9

转载 Hive,mysql 差集运算 left outer join

差集定义:一般地,设A,B是两个集合,由所有属于A且不属于B的元素组成的集合,叫做集合A减集合B(或集合A与集合B之差)。 类似地,对于集合A,B,我们把集合{x/x∈A,且x¢B}叫做A与B的差集,记作A-B记作A-B(或A\B); 即A-B={x|x∈A,且x ¢B}(或A\B={x|x∈A,且x ¢B} B-A={x/x∈B且x¢A} 叫做B与A的差集。比如说有这么两个表: hive...

2020-10-20 18:33:25 18

转载 hive日期函数-原生函数 from_unixtime,unix_timestamp,to_date,current_date,datediff,date_add,date_sub,add_mont

1.from_unixtime将UNIX时间戳转日期函数:from_unixtime  语法:from_unixtime(bigint unixtime[, stringformat])返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例: select from_unixtime(1323308943);+----------------------+--+| _c0 ...

2020-10-20 10:39:30 77

原创 HBase整体架构 和 HMaster,HRegionServer概述

1.1 HMaster HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行,HMaster在功能上主要负责Table和Region的管理工作: 管理用户对Table的增、删、改、查操作(admin操作); 管理HRegionServer的负载均衡,调整Region分布; 在Region 合并分裂后,负责新的Region重新分配; 在HRegionServer停机后,负责失效HRe..

2020-10-07 18:39:58 43

原创 HBase常见名词概述 和 hdfs中展现的形式

常见名词概述namespace //名称空间,就是数据库table //表row //行,是列族的集合columnfamily //列族,是列的集合column //列,是cell的集合,有多个版本。cell //通过三级定位,rowkey行键 + colum...

2020-10-07 18:02:28 12

转载 phoenix 全局索引设计实践

概述全局索引是Phoenix的重要特性,合理的使用二级索引能降低查询延时,让集群资源得以充分利用。 本文将讲述如何高效的设计和使用索引。全局索引说明全局索引的根本是通过单独的HBase表来存储数据表的索引数据。我们通过如下示例看索引数据和主表数据的关系。-- 创建数据表CREATE TABLE DATA_TABLE( A VARCHAR PRIMARY KEY, B VARCHAR, C INTEGER, D INTEGER); -- 创建索引CREATE IND

2020-10-07 11:28:23 10

原创 phoenix全局索引和本地索引 概述,使用场景,区别等详解

索引类型phoenix的索引大致分为两类global index和local index,好像和星环有点类似,其实这是hbase二级索引解决方案里面广为人知的两种方案,侧重点不同,使用场景也不一样。global index,global是默认的索引格式。官方文档翻译过来的:Global indexing适用于多读少写的业务场景。使用Global indexing的话在写数据的时候会消耗大量开销,因为所有对数据表的更新操作(DELETE, UPSERT VALUES and UPSERT SELECT

2020-10-07 11:18:39 629

原创 HBase 热点问题 和 phoenix 预分区表,盐表的运用

HBase 热点问题刚创建 HBase 表的时候默认只有一个 Region 由一个 Region Server 管理,在数据量达到一定值的时候会触发分裂 split,这样会不断的分裂出更多的 Region,由不同的 Region Server 管理,每个 Region 管理的是一段连续的 row key,由 start row key 和 end row key 表示,这样会出现两个问题无法充分利用分布式并发处理的优势,必须等待 Region 自动分裂成多个,这个过程可能会很久 由于每个 Regi

2020-10-06 14:32:09 76

原创 phoenix 创建 Pre-split(预分区)表

在建phoenix表时,可以精确的指定要根据什么值来做预分区,比如:create table testlocal(id integer primary key, name varchar,age integer,address varchar) split on (1, 2, 3);UPSERT INTO testlocal (id,name,age,address) values (1,'zhangshan',12,'广东');UPSERT INTO testlocal (id,na

2020-10-06 14:13:36 85

原创 Phoenix使用SALT_BUCKETS创建预分区表

Salting能够通过预分区(pre-splitting)数据到多个region中来显著提升读写性能。Salting 翻译成中文是加盐的意思,本质是在hbase中,rowkey的byte数组的第一个字节位置设定一个系统生成的byte值,这个byte值是由主键生成rowkey的byte数组做一个哈希算法,计算得来的。Salting之后可以把数据分布到不同的region上,这样有利于phoenix并发的读写操作。关于SaltedTable的说明在 http://phoenix.apache.org/sal

2020-10-06 13:15:41 74

转载 java-jdbc代码 增删改查 phoenix

环境问题,maven依赖问题,可查看博文https://blog.csdn.net/qq_41712271/article/details/108933385jdbc工具类package com.huawei.phoenix_api.config;import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException;public class PhoenixUtil { public

2020-10-06 00:05:42 17

原创 java连接Phoenix,环境问题,jar包依赖等遇到的坑

1 jar包问题phoenix与hbase版本对应http://phoenix.apache.org/download.htmlhttp://archive.apache.org/dist/phoenix/如果hbase和phoenix刚好有相应的pom依赖,直接使用即可,如下<dependency> <groupId>org.apache.phoenix</groupId> <artifactId>phoenix-core</

2020-10-05 22:07:54 154

Elasticsearc 查询学习 球员测试数据

Elasticsearc 查询学习 球员资料测试数据,需要使用bulk批量添加

2020-04-07

hive 操作相关的测试数据集

hive 操作相关的测试数据集hive

2019-11-28

DbVisualizer连接hive的jar包.rar

DbVisualizer数据库工具连接hive所需要的jar文件

2019-09-26

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除