sql
文章平均质量分 80
辉哥之吞并BAT
积跬步,积溪流,时间会给你应有的回报!
展开
-
sparkSql 直接执行外部 sql/hql文件 较上篇的升级篇
升级处理了sql文件中文注册乱码问题yarn-client模式,local模式,配置文件直接在本地就可以直接运行了。yarn-cluster在读取配置文件的时候让运维兄弟在yarn的nodeManager所有计算节的磁盘上挂载了一个hdfs共享盘(resourceManager节点上没挂),直接把配置文件和sql文件丢进去,直接cluster模式跑就和client,local模式一样。===================pom文件如下=============<?xml versio原创 2021-06-30 19:07:30 · 558 阅读 · 0 评论 -
sparkSql 直接执行外部 sql/hql文件
话不多说上代码:======idea 部分代码======begin=====import org.apache.hadoop.security.UserGroupInformationimport org.apache.spark.sql.SparkSessionimport java.io.Fileimport java.util.Propertiesimport scala.io.{BufferedSource, Source}/*** ods层数据清洗落地到dwd层*/..原创 2021-06-29 21:26:29 · 1534 阅读 · 1 评论 -
impala sql 脱敏 数据大约1亿1千万 + 800多万
impala sql 脱敏 数据大约1亿1千万 强大的impala 几分钟 就搞定了,一直跟担心会吧集群跑崩掉,想多了,impala + kudu 结构背景:修改生产,用户表8百万数据,订单表1亿一千万数据impala sql 发现,一个汉字的长度是3(不固定,有的一个汉字长度更长)直接对全表数据的进行update操作,对已经有脱敏数据,直接跳过 手机号脱敏UPDAT...原创 2018-09-26 15:16:04 · 1296 阅读 · 0 评论