自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Stereo

勇者无所畏惧 强者自强不息

  • 博客(10)
  • 资源 (12)
  • 收藏
  • 关注

转载 MapReduce的Shuffle阶段

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在

2014-04-30 11:57:17 711

转载 MapReduce 全排序

转自:http://zxxapple.iteye.com/blog/1405502关于全排序的问题  Tom White的书中提出的数据取样方法 ,最近学习了一下,下面做个比较,以防后患!!  主要思想就是在要排序的所有数据中随机取出一定量的数据,这些数据取自三个部分,1. 选取总得数据 ( 键值对 ) 数目2. 选取的 split 数目3. 每个 split 选取的键

2014-04-30 09:56:49 672

转载 使用IKAnalyzer进行中文分词

在不需要标注词性的情况下,IKAnalyzer这个工具能实现较好的分词效果。下载地址:https://code.google.com/p/ik-analyzer/下载下来以后能看到有个pdf文档告诉该如何使用,不过作者貌似没有提到需要用到lucene包,这个jar包可以从这里下载:http://grepcode.com/snapshot/repo1.maven.org/maven2/org

2014-04-17 11:28:09 1650 1

转载 Ubuntu下MySQL的安装及远程连接配置等配置

一、Ubuntu下MySQL的安装在Ubuntu命令行下输入 sudo apt-get install mysql-server 即可安装mysql服务,默认在安装mysql-server时,会自动安装好mysql-client。同时安装好的mysql配置文件位置:/etc/mysql/my.cnf启动mysql的快捷图标为:/etc/init.d/mysql二、编

2014-04-11 15:41:58 576

转载 hadoop 自定义inputformat和outputformat

http://blackproof.iteye.com/blog/1hadoop的inputformat和outputformat 最好的例子vertica :虽然是在pig中实现的udf,但是就是hadoop的inputformat和outputformat,在hive里也可以照用,贴个下载的地址:http://blackproof.iteye.com/blog/

2014-04-04 17:22:31 639

转载 MapReduce与MySQL交互

apReduce与MySQL交互  MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力。为此,Google和MapReduce社区进行了很多努力。一方面,他们设计了类似于关系数据中结构化数据表的技术(Google的BigTable,Hadoop的HBase)提供一些粗粒度的结构化数据存储和处理能力;另

2014-04-04 13:40:00 759

转载 使用Hadoop做K-Means计算的总结

以K均值聚类算法为实验对象。通过调整各项Hadoop参数,已经不能再进一步缩短K均值迭代的时间,在计算过程中,CPU User态的使用率始终维持在95%左右。尝试过的配置项有:mapred.min.split.sizeio.sort.mbio.sort.spill.percentio.sort.factormin.num.spill.

2014-04-04 11:58:10 769

转载 Hadoop MapTask/ReduceTask各阶段耗费时间的测试

io.block.size:64Mmapred.mapinput.min.splitsize:512Mio.sort.mb:512M每个maptask的输入为512M的数据,在每个maptask中,发生了3次spill缓存溢写。下面是通过日志统计出的各个细分阶段所用的时间:每个TaskTracker都使用一个队列保存JobTracker分发过来的

2014-04-04 11:47:39 1302

转载 hadoop添加节点和删除节点

转自:http://www.cnblogs.com/ggjucheng/archive/2012/04/22/2465625.html添加DataNode1.部署hadoop和普通的datanode一样。安装jdk,ssh2.修改host和普通的datanode一样。添加namenode的ip3.修改namenode的配置文件conf/slaves添

2014-04-04 11:35:27 639

转载 K-Means算法

在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。问题K-Means算法主要解决的问题如下图所示。我们可以看到,在图的左边有一些点,我们用肉眼可以看出来有四个点群,但是我们怎么通过计算机程序找出这几个点群来呢?于是就出现了我们的K-Means算法(Wikipedia链接)

2014-04-02 10:35:48 568

hadoop2.x安装

hadoop2.x安装指南.

2015-11-11

Hortonworks Data Platform: HDFS Administration Guide

Hortonworks Data Platform: HDFS Administration Guide

2015-10-26

Hortonworks Data Platform: YARN Resource Management

Hortonworks Data Platform: YARN Resource Management

2015-10-26

Hessian android版

Hessian android版.

2013-12-27

Tomcat集群配置

Apache+Tomcat集群配置 基于最新的Apache和Tomcat,具体是2011年4月20日最新的Tomcat和Apache集群和负载均衡配置。

2013-12-27

Flash ActionScript 3.0高级动画教程

Flash ActionScript 3.0高级动画教程.pdf

2013-05-31

AS3 Box2D引擎官方例子、源码、API

AS3 Box2D引擎官方例子、源码、API

2013-05-30

Flex 逼真海洋效果

Flex 逼真海洋效果

2013-05-09

AS3贝塞尔算法

用AS制作游戏引导线(等分贝塞尔曲线)

2013-04-10

不错的Flex图片滚动效果

Flex效果

2013-01-31

页游地图Demo

Flex页游地图Demo

2013-01-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除