自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 kerberos认证

##hdfs用户下,认证hive和hdfs,后面同上。###打印一下,方便排错。####执行认证操作。

2024-05-06 14:20:54 868

原创 hive 生产问题汇总

1、全转decimal相加,不然会被强制转decail,如result2:两个declimal计算不会造成精度丢失, double和decimal计算可能造成精度缺失,hive中double和decimal两个类型计算会返回double,有可能造成精度缺失。而在向量化查询执行中,每次处理包含多行记录的一批数据,每一批数据中的每一列都会被存储为一个向量(一个原始数据类型的数组),这就极大地减少了执行过程中的方法调用、反序列化和不必要的if-else操作,大大减少CPU的使用时间。

2023-12-27 09:32:16 898 1

原创 hive 报错问题

向量化查询执行是 Hive 的一项功能,可大大减少典型查询操作(如扫描,过滤器,聚合和联接)的 CPU 使用率。向量化查询执行通过一次处理一个 1024 行的块来简化操作。通过有效地使用处理器管道和高速缓存,这些循环以精简的方式进行编译,该方式使用相对较少的指令,并平均在较少的时钟周期内完成每条指令。向量化查询(Vectorized query) 每次处理数据时会将1024行数据组成一个batch进行处理,而不是一行一行进行处理,这样能够显著提高执行速度。– 默认情况下,矢量化执行是关闭的;

2023-11-21 13:55:20 467

原创 hive 临时表、regexp_replace、get_json_object、explode、spli、regexp_extract、substring_index混用

hive 临时表、regexp_replace、get_json_object、explode、spli混用

2023-03-07 22:08:12 153

原创 shell脚本删除视图、mysql 判断是否删除完成

删除视图表function deleteViewTable() {# 声明要删除的表tableList=“keepa_view.v4_country_weekend keepa_view.v4_country_class keepa_view.v4_country_class30 keepa_view.v4_analysis_of_attribute_namekeepa_view.v4_analysis_of_attribute_name_detail keepa_view.v4_analysis_

2023-02-18 14:38:50 179

原创 hive创建临时表并插入csv

hive创建临时表并插入csv

2023-02-01 08:39:24 582

原创 python 1234 = 1+2+3+4 =10

实现一个整数的数字相加,如123 = 1+2+3 = 6

2022-06-14 12:08:41 980

原创 hive面试题

用SQL判断字段串中连续出现两个以上的数字,并返回对应的数字with a as (select explode(split(regexp_replace(‘sdfsd1232sdf324’,’[0-9]+’,’,’),’,’)) col) select * from a where LENGTH(col)>1结果为sdfsdsdf

2022-04-12 17:23:48 1480

原创 clickhouse

SELECT Account,toInt64(arrayStringConcat(extractAll(Account, ‘[0-9]’),’’)) from finance_new_result.profit_resultclickhouse正则表达式提取字符串数字select Account, alphaTokens(Account),splitByChar(’-’,Account),arrayElement(splitByChar(’-’,Account),1) a,arrayElement(al

2022-03-23 13:34:39 3368

原创 使用spark将MySQL数据导入hive

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object spark_from_mysql_to_hive {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().master(“local[*]”).enableHiveSupport().config(“spark.debug.maxToStri

2022-03-10 18:14:05 2618

原创 spark执行结果不打印日志,pom.xml配置

spark打印日志设置

2022-01-16 15:19:58 1112

原创 hive大小文件合并

hive -e “set tez.queue.name=usershell; 启用哪个队列set hive.execution.engine=tez; 启用引擎set hive.merge.tezfiles=true; 开启合并set hive.merge.smallfiles.avgsize=16000000; 文件合并标准(低于16000000kb进行合并)set hive.merge.size.per.task=128000000;文件合并大小(最终文件大于128000000后,停止合并,合

2021-09-28 19:37:23 3656

原创 hive 行列转化

select explode(split(regexp_replace(‘sdfsd1232sdf324’,’[0-9]+’,’,’),’,’))union allselect explode(split(regexp_replace(‘sdfsd1232sdf324’,’[a-z]+’,’,’),’,’))select regexp_extract(‘honeymoon’, ‘hon(.*?)(moon)’,2);select explode(array(‘A’,‘B’,‘C’))select

2021-09-28 16:17:40 192

原创 shell传参实时计算脚本

#!/bin/bashstar=date +'%Y-%m-%d %H:%M:%S'echo $(date “+%Y-%m-%d %H:%M:%S”);echo currency:$1;currency=1;echo"1;echo "1;echo"currency";echo Platform:$2;Platform=2;echo"2;echo "2;echo"Platform";echo Country:$3;Country=3;echo"3;echo "3;echo"Country"

2021-09-16 10:50:22 127

翻译 sqoop

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-09-01 09:05:52 333

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除