2012年01月_liuhongxingrs

03月 01月

转载如何做首页改版（阿里巴巴首页改版经验谈）

转载自http://www.tianya8.net/2012/01/%e5%a6%82%e4%bd%95%e5%81%9a%e9%a6%96%e9%a1%b5%e6%94%b9%e7%89%88%ef%bc%88%e9%98%bf%e9%87%8c%e5%b7%b4%e5%b7%b4%e9%a6%96%e9%a1%b5%e6%94%b9%e7%89%88%e7%bb%8f%e9%aa%8c%e8%

2012-01-20 15:11:09 583

转载 2011年风靡的数据流计算系统

装载自http://www.programmer.com.cn/9642/

2012-01-20 15:07:54 521

原创 hive的multi-distinct可能带来性能恶化

目前hive的版本支持multi-distinct的特性，这个在用起来比较方便，但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化，如日志中常常统计pv，Uv，独立ip数，独立session

2012-01-18 09:27:41 4894

原创 hive中reduce输出大文件的处理

问题1:hive表对应的数据含有很多空文件或者很多较大文件原因：最本质原因是数据倾斜导致分配到reduce的数据量差别所致，这些空文件会占据namenode的内存，也会影响map的数目。解决方案1: 在hadoop本身OutputFormat的接口中org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat倒可以在hadoop层面解决，

2012-01-16 13:55:01 5231

原创 Oracle本地分区索引的使用小结

为了提高数据访问的效率，常常建立索引，但是每次重建索引在数据量很大的时候会明显变慢，影响了处理效率，因此对于大量的数据，常常使用分区和分区索引相结合的办法，这样历史分区索引不用重建，只用对新分区进行索引进行处理就行了，中间测试oracle本地分区索引的过程记录如下，供参考1.建立分区表create tabletmp_partition_list ( report_datevarcha

2012-01-08 14:10:03 1282

vim的扩展文件打包

为vim的资源文件，直接上传到linux上，然后进行tar -xzf vim.tar.gz之后，即可安装完成，安装完成之后可以使用进行vim作为开发环境，目前的支持的vim版本为vim 7

2012-05-14

hadoop-snappy的jar包

hadoop中使用snappy算法，需要手工编译hadoop-snappy的包，但是这个包没有提供下载，需要花很大力气进行编译，现在把这个包提供出来

2012-03-15

hadoop-snappy的java包

hadoop中使用snappy算法，需要手工编译hadoop-snappy的包，但是这个包没有提供下载，需要花很大力气进行编译，现在把这个包提供出来

2012-03-15

文本分类特征提取的ppt

本文以一个简单的案例循序渐进的讲解了特征提取的过程，其中，介绍了几种特征提取的方法

2010-01-16

SQL语言艺术（面向高级开发工程师）

第1章，制定计划：为性能而设计讨论如何设计高性能数据库第2章，发动战争：高效访问数据库解释如何进行程序设计才能高效访问数据库第3章，战术部署：建立索引揭示为何建立索引，如何建立索引第4章，机动灵活：思考SQL语句解释如何设计SQL语句第5章，了如指掌：理解物理实现揭示物理实现如何影响性能第6章，锦囊妙计：认识经典SQL模式包括经典的SQL模式、以及如何处理第7章，变换战术：处理层次结构说明如何处理层次数据第8章，孰优孰劣：认识困难，处理困难指出如何认识和处理比较棘手的情况第9章，多条战线：处理并发讲解如何处理并发第10章，集中兵力：应付大数据量讲解如何应付大数据量第11章，精于计谋：挽救响应时间分享一些技巧，以挽救设计糟糕的数据库的性能第12章，明察秋毫：监控性能收尾，解释如何定义和监控性能

2009-09-13

SQL简单编写编写规范

SQL简单编写编写规范。从网上搜索整理出来的

2009-08-21

crisp-dm挖掘过程的中文版

crisp-dm挖掘过程的中文版想进入此行业的人，应该熟悉一下

2009-08-14

MapReduce: Simplified Data Processing on Large Clusters中文版

来自于GOOGLE的mapreduce的开山之作，此文是原英文的中文版本，希望能互相参照，加深理解

2009-07-29

R语言GUI-Rcmdr英文介绍

是英文原版文档，简单介绍RCMDR的使用，具体参见网页http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

2009-07-28

power design 教程

power design 教程是数据库和数据仓库的主要工具

2009-04-09

PL/SQL详细教程

PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程

2009-04-09

EM算法中文介绍，希望你能得到信息

EM算法，中文的介绍，那就不要这样麻烦的事情

2008-11-07

Java开源，用于画图 pdf

Q. Where do I go to get questions answered? A. Check either the JUNG Support forum https://sourceforge.net/forum/forum.php?forum_id=252062 or the JUNG-support mailing list ============== THE BASICS ============== Q. What is this "TestCase" that I see references to? A. It's part of JUnit, the tool we use for unit testing out code. See http://junit.org Q. How do I add two parallel edges to a SparseGraph? A. Make sure the graph allows parallel edges (this means you can't use DirectedSparseGraph or UndirectedSparseGraph, unless you remove the edge constraint Graph.NO_PARALLEL_EDGE from them) and make sure that the vertex implementation accepts them (don't use the Simple*SparseVertex implementations). Graph g = new SparseGraph(); Vertex v1 = g.addVertex( new SparseVertex()); Vertex v2 = g.addVertex( new SparseVertex()); g.addEdge( new UndirectedSparseEdge( v1, v2 )); g.addEdge( new UndirectedSparseEdge( v1, v2 ));

2008-10-05

NaiveBayes分类器介绍

本文介绍了NaiveBayes分类器的原理

2007-11-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 如何做首页改版（阿里巴巴首页改版经验谈）