ontheway_011-CSDN博客

原创 hive中文乱码问题

环境：命令行封装的jdbc连接执行insert into table_name values(1,'哈哈','a') 方式，中文部分出现乱码，后改写为insert overwrite table table_name select 1,'哈哈','a' from dual 问题解决问题定位应该是jdbc解析部分出现问题，不是客户端问题，已经设置utf8

2016-03-04 11:15:32 676

原创 to_char转换小数点前0丢失问题

前端展示占比时，会使用到to_char函数，oracle直接转换会丢失0。例如to_char(0.4)，转换结果为.4，这种不是我们想要的结果。可以考虑to_char(XXX.XX,’FM990.00’)，API如下： 9代表存在数字则显示数字，没有则显示空格； 0代表存在数字则显示数字，没有则显示0； FM 删除9产生的空格；另外，’.’后面多出的9或0均会补0 如to_cha

2016-02-01 10:06:19 4580

原创 kettle变量传递问题

问题描述：通过evaluate rows number in a table组件判断后，在下一个transformation中获取变量，但transformation中的变量始终在后端无法使用，即使定了了root 变量也不行。后发现为evaluate rows number in a table组件中多勾选了“clear list of result rows before execution

2016-01-21 14:36:58 2047

原创 hive优化链接

深入浅出数据仓库中SQL性能优化之Hive篇 http://www.csdn.net/article/2015-01-13/2823530

2016-01-04 15:29:31 279

原创非分区表迁移到分区表

这几周DW部分common表刷新速度很慢，经分析是数据量过大，这两天都在想优化的方式，定下来从分区入手。目前ODS通过kettle同步过来的数据都是非分区的，部分大表都在2亿以上，分区迫在眉睫。先是从我常用的一个common表入手，之前计划对常用的字段如状态、创建时间做list-range分区，但考虑到状态变化会导致分区键变化，后决定只使用创建时间做range分区，并且对已有的数据按照数据分

2015-12-30 14:10:21 1879

转载 DB 运行情况查看

http://www.cnblogs.com/askjacklin/archive/2012/06/04/2534571.html –查询表空间使用情况　　SELECT UPPER(F.TABLESPACE_NAME) “表空间名”, 　　D.TOT_GROOTTE_MB “表空间大小(M)”, 　　D.TOT_GROOTTE_MB - F.TOTAL_BYTES “已使用空间(M)”,

2015-12-24 17:30:33 347

原创多表存量关联优化

这似乎是不可能完成的任务昨天对多张大表关联进行优化，看执行计划无明细问题，都是hash。仔细研究了下，left join后面的几张表都可以从数据量控制层面入手，但由于调整太大，方案被否了临时方案： 1、暂时将多表接入到一张中间表，拆分SP 2、对nest_loop部分强制hash 3、增加并行明天看结果，待续

2015-12-24 13:39:06 363

原创 hive基础命令

小白上路喽，从命令行开始 show database; use db_name; show tables; desc tb_name; show functions; desc function fc_name;

2015-12-22 17:06:50 297

ontheway_011的博客