- 博客(5)
- 资源 (14)
- 收藏
- 关注
转载 如何做首页改版(阿里巴巴首页改版经验谈)
转载自http://www.tianya8.net/2012/01/%e5%a6%82%e4%bd%95%e5%81%9a%e9%a6%96%e9%a1%b5%e6%94%b9%e7%89%88%ef%bc%88%e9%98%bf%e9%87%8c%e5%b7%b4%e5%b7%b4%e9%a6%96%e9%a1%b5%e6%94%b9%e7%89%88%e7%bb%8f%e9%aa%8c%e8%
2012-01-20 15:11:09 583
原创 hive的multi-distinct可能带来性能恶化
目前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session
2012-01-18 09:27:41 4894
原创 hive中reduce输出大文件的处理
问题1:hive表对应的数据含有很多空文件或者很多较大文件原因:最本质原因是数据倾斜导致分配到reduce的数据量差别所致,这些空文件会占据namenode的内存,也会影响map的数目。解决方案1: 在hadoop本身OutputFormat的接口中org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat倒可以在hadoop层面解决,
2012-01-16 13:55:01 5231
原创 Oracle本地分区索引的使用小结
为了提高数据访问的效率,常常建立索引,但是每次重建索引在数据量很大的时候会明显变慢,影响了处理效率,因此对于大量的数据,常常使用分区和分区索引相结合的办法,这样历史分区索引不用重建,只用对新分区进行索引进行处理就行了,中间测试oracle本地分区索引的过程记录如下,供参考1.建立分区表create tabletmp_partition_list ( report_datevarcha
2012-01-08 14:10:03 1282
vim的扩展文件打包
2012-05-14
hadoop-snappy的jar包
2012-03-15
hadoop-snappy的java包
2012-03-15
SQL语言艺术(面向高级开发工程师)
2009-09-13
MapReduce: Simplified Data Processing on Large Clusters中文版
2009-07-29
Java开源,用于画图 pdf
2008-10-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人