自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据技术控

学习笔记备忘录。。。

  • 博客(3)
  • 资源 (4)
  • 收藏
  • 关注

原创 SQL性能调优之Insert语句干扰了正确的执行计划的一次记录

早上听团队里的兄弟反映有一条SQL语句从凌晨一直执行到上班时间还没执行完,具体SQL语句结构如下: insert into dm.Fct_T select .. from (SELECT .. from .. where .. group by .. ) a, ( SELECT ..

2013-08-30 15:28:02 1408

原创 老生常谈数据仓库如何保证数据质量

数据仓库如何保证数据质量1、从技术层面我们需要构建一套高效、健壮的ETL程序去保证数据清洗、转换后数据的正确性和一致性 举个简单的例子:对日期格式的处理,源系统有2013-30-08 2013\8\30 20130830 2013-08-40 等多种不规范格式要考虑合面,统一清洗转换成一致性数据2013-08-30,同时对错误数据进行剔除 并且系统提供事后自动检验机制,支持灵活的自定义

2013-08-30 09:11:44 6502

原创 Namenode计算client与datanode距离方法pseudoSortByDistance分析

在Hadoop读数据的过程中,会从与Client端最这距离的datanode的block副本去读数据,那这个距离怎么计算?策略是与Client同一个datanode结点的优先权最高,其次是本机架结点,否则随机。我们知道在读数据的时候Client首先会与namenode打交道,向namenode发送RPC请求获取block及对应的datanode位置列表,由Namenode端计算距离后按距离由近及远

2013-08-29 15:31:52 1169

oozie使用整理

此文档主要对oozie的使用方法,基本内容做了一次介绍。

2018-09-21

spark优化实践小记

此文档主要对日常使用spark过程中可能遇到的一些性能优化问题做了一次整理总结

2018-09-21

Percolator分布式事务

Percolator分布式事务介绍,基于BigTable的分布式事务实现

2018-09-21

处理后的ip库

ipku文件为对纯真ip库进行国家,省,市,区县拆分,学校网吧不规范数据处理后的可用文件 ipdata为原始纯真ip库 xuexiao.csv为手工整理的学校网吧对应的地区

2015-11-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除