- 博客(3)
- 资源 (4)
- 收藏
- 关注
原创 SQL性能调优之Insert语句干扰了正确的执行计划的一次记录
早上听团队里的兄弟反映有一条SQL语句从凌晨一直执行到上班时间还没执行完,具体SQL语句结构如下: insert into dm.Fct_T select .. from (SELECT .. from .. where .. group by .. ) a, ( SELECT ..
2013-08-30 15:28:02 1408
原创 老生常谈数据仓库如何保证数据质量
数据仓库如何保证数据质量1、从技术层面我们需要构建一套高效、健壮的ETL程序去保证数据清洗、转换后数据的正确性和一致性 举个简单的例子:对日期格式的处理,源系统有2013-30-08 2013\8\30 20130830 2013-08-40 等多种不规范格式要考虑合面,统一清洗转换成一致性数据2013-08-30,同时对错误数据进行剔除 并且系统提供事后自动检验机制,支持灵活的自定义
2013-08-30 09:11:44 6502
原创 Namenode计算client与datanode距离方法pseudoSortByDistance分析
在Hadoop读数据的过程中,会从与Client端最这距离的datanode的block副本去读数据,那这个距离怎么计算?策略是与Client同一个datanode结点的优先权最高,其次是本机架结点,否则随机。我们知道在读数据的时候Client首先会与namenode打交道,向namenode发送RPC请求获取block及对应的datanode位置列表,由Namenode端计算距离后按距离由近及远
2013-08-29 15:31:52 1169
处理后的ip库
2015-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人