自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 使用DistCp,两个集群之间的数据拷贝

需求:两个集群A和B,把集群A的aa.src_table表的数据,拷贝到B集群的bb.obj_table里面。B集群的HDFS地址,是确定的。A集群地址采用动态方式获取步骤:1、SQL中动态获取aa.src_table表的HDFS位置,srcTableInfo=`beeline -u ${JDBC} -e "DESCRIBE EXTENDED aa.src_table"`其中${JDBC}是访问Hive集群的链接2、利用egrep和sed srcLocation=`echo ${srcTable

2021-10-11 15:37:26 956

原创 hive sql动态拆解时分秒

从上游爬取的时间字段responseDuration,有三种显示,例如:2小时37分55秒,或者37分55秒,再或者55秒字段的值是动态的,时分秒,分秒,或者秒,要把这个字段的值拆解,然后换算成秒思路:考虑使用正则表达式替换函数regexp_replace,把时分秒,先替换成' ', 然后split(间隔符是' ')拆成数组,然后小时的数乘以3600,分钟的数乘以60步骤:1、先替换小时和分,小时和分有可能有,也有可能没有: regexp_replace(responseDuration,'

2021-09-30 11:23:48 1198

原创 load data inpath的实践

有个需求,需要在hive表里面追加数据,数据是历史数据,是业务方给的一个csv文件,思路,考虑使用load data inpath,把历史数据导入到hive表里面步骤:1、利用已经搭建好的大数据平台,把csv文件上传到HDFS, 我是直接利用大数据平台提供的页面上传功能,如果没有这个条件的,可以使用命令行:hadoop fs -put xxx.csv /export, 指定一个目录,目录名为export2、创建一个表,表里面的字段名称和字段顺序,跟csv文件保持一致,例如这个表名叫 inf

2021-09-29 16:03:22 4597

原创 hive sql时间函数的实践

有个SQL定时任务,每个月1号,查询上个月1号到上个月最后一天的数据,需要在SQL里面确定时间范围,hive数据表里面的时间格式是yyyyMMdd这个问题,涉及几个时间函数的综合应用,关键点是:时间范围要小于等于上个月最后一天,同时大于等于上个月第一天上个月最后一天:当前时间是当月第一天:trunc(CURRENT_TIMESTAMP,'MM'), trunc(sysdate, 'mm'),返回当月第一天当月第一天的前一天,也就是上个月的最后一天:date_sub(trunc(CURRE

2021-09-28 14:00:50 656

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除