- 博客(8)
- 收藏
- 关注
原创 hive中文乱码问题
环境:命令行封装的jdbc连接执行insert into table_name values(1,'哈哈','a') 方式,中文部分出现乱码,后改写为insert overwrite table table_name select 1,'哈哈','a' from dual 问题解决问题定位应该是jdbc解析部分出现问题,不是客户端问题,已经设置utf8
2016-03-04 11:15:32 676
原创 to_char转换小数点前0丢失问题
前端展示占比时,会使用到to_char函数,oracle直接转换会丢失0。 例如to_char(0.4),转换结果为.4,这种不是我们想要的结果。 可以考虑to_char(XXX.XX,’FM990.00’),API如下: 9代表存在数字则显示数字,没有则显示空格; 0代表存在数字则显示数字,没有则显示0; FM 删除9产生的空格; 另外,’.’后面多出的9或0均会补0 如to_cha
2016-02-01 10:06:19 4580
原创 kettle变量传递问题
问题描述:通过evaluate rows number in a table组件判断后,在下一个transformation中获取变量,但transformation中的变量始终在后端无法使用,即使定了了root 变量也不行。后发现为evaluate rows number in a table组件中多勾选了“clear list of result rows before execution
2016-01-21 14:36:58 2047
原创 hive优化链接
深入浅出数据仓库中SQL性能优化之Hive篇 http://www.csdn.net/article/2015-01-13/2823530
2016-01-04 15:29:31 279
原创 非分区表迁移到分区表
这几周DW部分common表刷新速度很慢,经分析是数据量过大,这两天都在想优化的方式,定下来从分区入手。 目前ODS通过kettle同步过来的数据都是非分区的,部分大表都在2亿以上,分区迫在眉睫。 先是从我常用的一个common表入手,之前计划对常用的字段如状态、创建时间做list-range分区,但考虑到状态变化会导致分区键变化,后决定只使用创建时间做range分区,并且对已有的数据按照数据分
2015-12-30 14:10:21 1879
转载 DB 运行情况查看
http://www.cnblogs.com/askjacklin/archive/2012/06/04/2534571.html –查询表空间使用情况 SELECT UPPER(F.TABLESPACE_NAME) “表空间名”, D.TOT_GROOTTE_MB “表空间大小(M)”, D.TOT_GROOTTE_MB - F.TOTAL_BYTES “已使用空间(M)”,
2015-12-24 17:30:33 347
原创 多表存量关联优化
这似乎是不可能完成的任务 昨天对多张大表关联进行优化,看执行计划无明细问题,都是hash。 仔细研究了下,left join后面的几张表都可以从数据量控制层面入手,但由于调整太大,方案被否了 临时方案: 1、暂时将多表接入到一张中间表,拆分SP 2、对nest_loop部分强制hash 3、增加并行明天看结果,待续
2015-12-24 13:39:06 363
原创 hive基础命令
小白上路喽,从命令行开始 show database; use db_name; show tables; desc tb_name; show functions; desc function fc_name;
2015-12-22 17:06:50 297
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人