sql
yostkevin
热爱编程,喜欢各种球类运动。
展开
-
hive小文件解决
一 产生原因1.1 数据增量多批次插入,每批次会产生 partitions*reducetasks 个小文件1.2 hive或spark 数据分析 reduce task个数过多。二 解决方法2.1 hadoop archivehive> set hive.archive.enabled=true;hive> set hive.archive.har.parentdir.settable=true;hive> set har.partfile.size=1099.原创 2021-07-08 17:08:16 · 245 阅读 · 0 评论 -
greenplum 运维监控参数配置
一 . 状态监控1.1gpstate命令 参数 作用 gpstate -b => 显示简要状态gpstate -c => 显示主镜像映射gpstart -d => 指定数据目录(默认值:$MASTER_DATA_DIRECTORY)gpstate -e => 显示具有镜像状态问题的片段gpstate -f => 显示备用主机详细信息gpstate -i => 显示GRIPLUM数据库版本gpstate -m => 显示镜像实例同.原创 2021-07-05 17:08:17 · 1059 阅读 · 0 评论 -
mysql模拟造日志数据
-- sakila.payment_1 definition--模拟超市交易日志drop table sakila.payment_1;CREATE TABLE sakila.`payment_1` ( `payment_id` smallint(5) unsigned NOT NULL AUTO_INCREMENT, `customer_id` varchar(255) NOT NULL, `staff_id` varchar(255) NOT NULL, `product_i.原创 2021-07-02 16:23:01 · 124 阅读 · 0 评论 -
数据仓库与数据湖相关总结
一、数据仓库分层:DS:数据源层 (mysql,pg(增删改查日志),kafka(机器运行日志、点击日志)),同一类日志可以是多张表结构相似的表(日志表:网页日志表,抓拍日志表,手机信号日志表,h5日志表,小程序日志表)staging:数据预处理层,存储每天(批次)的增量,表结构和ods层一样ods:操作数据层,存储所有清洗(etl)后的基础数据,表结构基于DS但不完全同于DS(ods日志表 对应 DS 网页日志表,抓拍日志表,手机信号日志表,h5日志表,小程序日志表)。dd:脏数据层,..原创 2021-05-06 17:07:54 · 492 阅读 · 0 评论 -
连续时间段去重
--连续时间段去重,并求关联轨迹--入参表(小表)CREATE table public.test1(id int,name varchar,record_time timestamp,place_id int);--日志记录表(大表)CREATE table public.test(id int,name varchar,record_time timestamp,place_id int);INSERT INTO public.test1 (id,name,record_time,pla.原创 2021-04-29 16:10:34 · 458 阅读 · 0 评论 -
MPP update优化一
前言:对于列式存储直接update性能低下,可采用update+insert方式或者delete+insert 方式 实现更新操作例子:套牌车的一个测试例子 -- create or insert 每个车牌的最近一条记录 对应的表 29.361s create table dts_vehicle_resource.fake_plate_info_sp as SELECT a.plateno,a.platecolor,a.tollgateid,a.passtime ,ST_Geograp原创 2020-06-01 15:10:15 · 645 阅读 · 0 评论 -
pg与gp sql层面的一些差异
1.--gp不支持: string_agg( DISTINCT..)例子: 在pg中:string_agg( DISTINCT other_id,''_'')as other_id_str在gp中等价于:(先distinct,再聚合)(SELECT central_id,string_agg(a.other_id,''_'')as other_id_str FROM (SELE...原创 2020-05-21 17:32:34 · 1293 阅读 · 0 评论 -
MPP列式存储-over 性能优化
1. 对于列式存储,使用over()时,将over()外的字段全部拿到外面来关联获取,是否会显著提高over操作的性能?-- 频繁出没查询汇总 执行耗时6.6screate or replace view dts_figure_resource.face_freq_appear_view_523040439e1c8f454eac1450481ff7bda34447c10 as select...原创 2020-05-08 10:16:43 · 904 阅读 · 0 评论 -
druid-单机x-large安装
安装druid[root@v003 home]# mkdir -p /opt/druid[root@v003 home]# cd /opt/druid/[root@v003 druid]# lsimply-3.2.4.tar jdk-8u161-linux-x64.tar.gz[root@v003 druid]# tar -xvf imply-3.2.4.tar[root@v00...原创 2020-05-21 17:31:40 · 212 阅读 · 0 评论 -
shell 访问mysql 并定时执行增删改查
vim filterData.shresult_time=`date -d "today" +"%Y%m%d"`result_file=/home/gree/msa/yw_msa/sheeldLogic/log/${result_time}_result_sheeldLogic.logmysql -h 10.2.5.52 -uname -ppwd -e"use g_details;...原创 2018-10-23 20:10:55 · 852 阅读 · 0 评论 -
数据库sql调优之explain
explainexplain用于查询一个表的执行计划,它在SQL优化的时候经常要用到(详细的执行计划解释参考第五章执行计划详解)1.下面代码演示了简单的执行计划的查看方法:上面的执行计划是一个层次关系,先从最右边开始查看:数据库先顺序扫描test2表,扫描大概有118单位的消耗,有1667行数据,平均长度为15字节。其中,1667行数据是一个估计值,是一个Segment的数据量...转载 2019-02-12 22:01:06 · 1267 阅读 · 0 评论 -
安装配置--postgres 的pg_hba.conf
host all all 192.168.109.106/22 md5host dbName user 192.168.109.106/22 trust使得shell可以免密连接postgres数据库:修改服务器端pg_hba.conf文件: ...原创 2019-06-24 20:30:49 · 919 阅读 · 0 评论 -
sql语句练习
1.有两个表:student,scorestudent表 id name age height1 1 zhangsan 21 802 2 lisi 32 903 3 wangwu 12 704 4 zhaoxin 68 505 5 huahua 23 456 6 hehe 21 457 7 chengcheng 24 70score表 id class score...原创 2019-02-12 22:07:01 · 283 阅读 · 0 评论