- 博客(5)
- 收藏
- 关注
原创 一些复杂的sql处理
select 'select '''||partition_name||''' partition_name,min(主键列) flag from '||table_owner||'.'||table_name||' partition ('||partition_name||') union all ' from dba_tab_partitions where table_name='XXX';update 表名 set 字段=null where 字段=某值 --即将表中字段为某值的替换为null。
2024-07-25 10:28:23 1103
原创 linux一些相关命令总结
ssh-copy-id -i .ssh/id_rsa.pub root@192.168.135.103 #复制密钥。递归 查找 字符串 find -type f -name *|xargs grep -ri ACTIVE_STATE。今天时期:`date +%Y%m%d` 或 `date +%F` 或 $(date +%y%m%d)查找目录:find /(查找范围) -name '查找关键字' -type d。系统时间昨天 计算 `date -d -1day +%Y%m%d`
2024-07-25 10:01:18 397
原创 merge和update语法异同点
一、MERGE 基本语法规则:MERGE INTO 目标表 aUSING 源表 bON (a.条件字段1=b.条件字段1 AND a.条件字段2=b.条件字段2 …)WHEN MATCHED THEN UPDATE SET a.更新字段=b.字段WHEN NOT MATCHED THEN INSERT INTO a(字段1,字段2…) VALUES(值1,值2…)二、UPDATE与MERGE异同点:一、共同点:都可以做更新操作二、不同点:1、update语句更新需要根据索引或者数据列遍历
2024-07-22 16:13:04 1042
原创 大数据mysqloracle
是 YARN 中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。Spark集群的独立部署环境中,不需要依赖其他的资源调度框架,自身就实现了资源调度的功能,所以环境中还有其他两个核心组件:Master和Worker,这里的Master是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责,类似于Yarn环境中的RM, 而Worker呢,也是进程,一个Worker运行在集群中的一台服务器上,由Master分配资源对数据进行并行的处理和计算,类似于Yarn环境中NM。
2024-06-19 15:59:30 1082
原创 hive1
正常设置的大小为spark任务申请的总core的2到3倍,即num-excutor*excuor_cores*(2 or 3)spark的并行度对spark的性能是又很大的影响的,spark任务能快速计算主要就是因为内存计算和并行计算。但是这个参数不会在rdd计算的时候就会生效,比如rdd.map(x => x.mkString(,))读取hdfs文件的时候是跟block块相关的,有几个 block就有几个分区去执行任务。在此设置几个分区读取数据库,就会产生几个分区执行后续的任务。
2024-06-19 14:24:19 148
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人