大数据
Lemon.Warn
这个作者很懒,什么都没留下…
展开
-
日切表转拉链表初始化,分组排序
日切表转拉链表初始化,分组排序原创 2023-07-28 11:15:52 · 170 阅读 · 0 评论 -
hive 空文件 空数据文件 小文件
hive 空文件 空数据文件 小文件原创 2022-12-29 17:28:04 · 604 阅读 · 0 评论 -
hive parquet 修改字段名 查询为空
1.在Hive的当前会话设置parquet.column.index.access=true属性(临时)Parquet格式的表,在重命名表的列名后,查询重名的列数据时显示当前列所有值为NULL。hive默认的读取parquet文件是按照名称读取的(orc默认是按序列号读取的),这个参数的功能是使hive读取parquet文件时使用序列号读取。...原创 2022-08-11 17:57:11 · 1242 阅读 · 0 评论 -
sparksql regexp_replace()匹配隐藏字符 匹配反斜杠
sparksql regexp_replace()匹配隐藏字符 匹配反斜杠原创 2022-06-17 11:07:02 · 1397 阅读 · 0 评论 -
Cloudera Manager(简称CM)管理大数据平台CDH,CM提供web可视化界面和RESTful API
API列表可以访问:http://localhost:7180/static/apidocs/rest.htmlhttps://github.com/cloudera/cm_api使用方式参考:1、访问集群概要信息# curl -u admin:your_password 'http://localhost:7180/api/v19/clusters/'2、获取集群内服务状态信息# curl -u admin:your_password 'http://localhost:7原创 2021-12-27 10:06:54 · 1333 阅读 · 0 评论 -
当月最后一天转换
hive-- HIVEselect last_day( from_unixtime( unix_timestamp('${bizdate}', 'yyyyMMdd') ) ), 'yyyy-MM-dd');-- PostgreSQLselect (date_trunc('month', '${bizdate}'::date) + interval '1 month' - interval '1 day')::d.原创 2021-11-08 17:46:49 · 1358 阅读 · 0 评论 -
mysql到hive数据类型转换
原创 2021-07-22 09:57:02 · 541 阅读 · 0 评论 -
decimal(m,n)
Hive的decimal类型类似Oracle,decimal(m,n)表示数字总长度为m位,小数位为n位,那么整数位就只有m-n位。MySql的decimal类型,decimal(m,n)表示整数位为m位,小数位为n位。如果你在Hive中使用的时候发现字段长度不够,Hive在处理数值字段的时候会直接置该字段值为NULL,不会将它截去。...原创 2021-07-13 10:31:01 · 1597 阅读 · 0 评论 -
sparksql java.lang.OutOfMemoryError: GC overhead limit exceeded
问题分析:查看yarn 任务详情Tracking URL:ApplicationMaster 界面,观察数据分配,发现tasks 的 suffer size分布不均匀。判断为 大表 left jion 小表 left join 大表的关联方式 ,产生了数据倾斜,造成内存溢出。解决方案:方案1:设置Spark-SQL adaptive 自适应框架参数需要在插入语句末尾添加分布键语句,distribute by 。SET spark.sql.adaptive.enabled=tr...原创 2021-05-26 10:42:05 · 1053 阅读 · 0 评论 -
sql 正则替换
保留数字regexp_replace(mobiles,"[^0-9-]","")去除换行符regexp_replace(name, '\n|\t|\r', '')原创 2021-04-25 16:46:40 · 2163 阅读 · 0 评论 -
hive 日期格式转换
方法1: from_unixtime+ unix_timestamp--20210303转成2021-03-03from_unixtime(unix_timestamp('20210303','yyyymmdd'),'yyyy-mm-dd')--2021-03-03转成20210303from_unixtime(unix_timestamp('2021-03-03','yyyy-mm-dd'),'yyyymmdd')--UTC时间from_unixtime( ( unix_times.原创 2021-03-04 15:51:51 · 2063 阅读 · 1 评论 -
sparksql压缩小文件
SET spark.sql.shuffle.partitions=2;SET spark.sql.adaptive.enabled=true;SET spark.sql.adaptive.shuffle.targetPostShuffleInputSize=268435456;insert overwrite table table_name partition(stat_dt) select * from source_table_name where stat_dt='20160701' dis.原创 2021-03-03 09:51:11 · 846 阅读 · 0 评论 -
Hive动态分区参数配置
Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hiv.原创 2021-01-04 16:11:07 · 380 阅读 · 0 评论 -
HDFS空间维护操作
删除临时目录:kinit -kt /etc/security/keytabs/xxx.keytab xxx #改为自己的用户hdfs dfs -du -h /user/hive/warehouse/icl_prd.db/ | grep '_temp_'hdfs dfs -rm -r $path_name压缩datax采集的数据:进入代理机:20.0.40.222hdfs dfs -ls -R /user/hive/warehouse/icl_prd.db/ | grep ..原创 2020-12-23 11:09:56 · 119 阅读 · 0 评论