自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (14)
  • 收藏
  • 关注

转载 如何做首页改版(阿里巴巴首页改版经验谈)

转载自http://www.tianya8.net/2012/01/%e5%a6%82%e4%bd%95%e5%81%9a%e9%a6%96%e9%a1%b5%e6%94%b9%e7%89%88%ef%bc%88%e9%98%bf%e9%87%8c%e5%b7%b4%e5%b7%b4%e9%a6%96%e9%a1%b5%e6%94%b9%e7%89%88%e7%bb%8f%e9%aa%8c%e8%

2012-01-20 15:11:09 583

转载 2011年风靡的数据流计算系统

装载自http://www.programmer.com.cn/9642/

2012-01-20 15:07:54 521

原创 hive的multi-distinct可能带来性能恶化

目前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session

2012-01-18 09:27:41 4894

原创 hive中reduce输出大文件的处理

问题1:hive表对应的数据含有很多空文件或者很多较大文件原因:最本质原因是数据倾斜导致分配到reduce的数据量差别所致,这些空文件会占据namenode的内存,也会影响map的数目。解决方案1: 在hadoop本身OutputFormat的接口中org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat倒可以在hadoop层面解决,

2012-01-16 13:55:01 5231

原创 Oracle本地分区索引的使用小结

为了提高数据访问的效率,常常建立索引,但是每次重建索引在数据量很大的时候会明显变慢,影响了处理效率,因此对于大量的数据,常常使用分区和分区索引相结合的办法,这样历史分区索引不用重建,只用对新分区进行索引进行处理就行了,中间测试oracle本地分区索引的过程记录如下,供参考1.建立分区表create tabletmp_partition_list (  report_datevarcha

2012-01-08 14:10:03 1282

vim的扩展文件打包

为vim的资源文件,直接上传到linux上,然后进行tar -xzf vim.tar.gz之后,即可安装完成,安装完成之后可以使用进行vim作为开发环境,目前的支持的vim版本为vim 7

2012-05-14

hadoop-snappy的jar包

hadoop中使用snappy算法,需要手工编译hadoop-snappy的包,但是这个包没有提供下载,需要花很大力气进行编译,现在把这个包提供出来

2012-03-15

hadoop-snappy的java包

hadoop中使用snappy算法,需要手工编译hadoop-snappy的包,但是这个包没有提供下载,需要花很大力气进行编译,现在把这个包提供出来

2012-03-15

文本分类特征提取的ppt

本文以一个简单的案例循序渐进的讲解了特征提取的过程,其中,介绍了几种特征提取的方法

2010-01-16

SQL语言艺术(面向高级开发工程师)

第1章,制定计划:为性能而设计 讨论如何设计高性能数据库 第2章,发动战争:高效访问数据库 解释如何进行程序设计才能高效访问数据库 第3章,战术部署:建立索引 揭示为何建立索引,如何建立索引 第4章,机动灵活:思考SQL语句 解释如何设计SQL语句 第5章,了如指掌:理解物理实现 揭示物理实现如何影响性能 第6章,锦囊妙计:认识经典SQL模式 包括经典的SQL模式、以及如何处理 第7章,变换战术:处理层次结构 说明如何处理层次数据 第8章,孰优孰劣:认识困难,处理困难 指出如何认识和处理比较棘手的情况 第9章,多条战线:处理并发 讲解如何处理并发 第10章,集中兵力:应付大数据量 讲解如何应付大数据量 第11章,精于计谋:挽救响应时间 分享一些技巧,以挽救设计糟糕的数据库的性能 第12章,明察秋毫:监控性能 收尾,解释如何定义和监控性能

2009-09-13

SQL简单编写编写规范

SQL简单编写编写规范。 从网上搜索整理出来的

2009-08-21

crisp-dm挖掘过程的中文版

crisp-dm挖掘过程的中文版 想进入此行业的人,应该熟悉一下

2009-08-14

MapReduce: Simplified Data Processing on Large Clusters中文版

来自于GOOGLE的mapreduce的开山之作,此文是原英文的中文版本,希望能互相参照,加深理解

2009-07-29

R语言GUI-Rcmdr英文介绍

是英文原版文档,简单介绍RCMDR的使用,具体参见网页http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

2009-07-28

power design 教程

power design 教程是数据库和数据仓库的主要工具

2009-04-09

PL/SQL详细教程

PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程

2009-04-09

EM算法中文介绍,希望你能得到信息

EM算法,中文的介绍,那就不要这样麻烦的事情

2008-11-07

Java开源,用于画图 pdf

Q. Where do I go to get questions answered? A. Check either the JUNG Support forum https://sourceforge.net/forum/forum.php?forum_id=252062 or the JUNG-support mailing list ============== THE BASICS ============== Q. What is this "TestCase" that I see references to? A. It's part of JUnit, the tool we use for unit testing out code. See http://junit.org Q. How do I add two parallel edges to a SparseGraph? A. Make sure the graph allows parallel edges (this means you can't use DirectedSparseGraph or UndirectedSparseGraph, unless you remove the edge constraint Graph.NO_PARALLEL_EDGE from them) and make sure that the vertex implementation accepts them (don't use the Simple*SparseVertex implementations). Graph g = new SparseGraph(); Vertex v1 = g.addVertex( new SparseVertex()); Vertex v2 = g.addVertex( new SparseVertex()); g.addEdge( new UndirectedSparseEdge( v1, v2 )); g.addEdge( new UndirectedSparseEdge( v1, v2 ));

2008-10-05

NaiveBayes分类器介绍

本文介绍了NaiveBayes分类器的原理

2007-11-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除