自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

豹先生

思而后定,持之以恒

  • 博客(35)
  • 资源 (5)
  • 收藏
  • 关注

原创 收藏搬家了

qq书签收藏搬家到csdn来了,QQ2013把qq书签给去掉了,无奈啊~~~

2013-02-08 10:38:23 596

转载 基于myhout探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类

聚类分析什么是聚类分析?聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”,核心的思想也就是聚类。人们总是不断

2013-02-27 18:04:41 911

转载 基于myhout探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探

“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助

2013-02-27 18:00:50 771

转载 MapReduce高级编程之本地聚集与Combinner

本篇主要介绍Combinner,这个MapReduce Shuffle中占有重要地位,他能减少磁盘I/O以及网络Fetch时的数据迁移量,在MapReduce Shuffle中存在着三次排序(Map端两次,reduce端一次),每次排序时便会用上一次Combinner函数,也就是这个可有可无的函数一旦定义会被三次调用~~     然而Combinner的使用需要注意程序的差错性,而且有些情况是

2013-02-23 15:04:39 640

转载 MapReduce高级编程之自定义InputFormat

InputFormat是MapReduce中一个很常用的概念,它在程序的运行中到底起到了什么作用呢?InputFormat其实是一个接口,包含了两个方法:public interface InputFormat {  InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;  RecordReade

2013-02-23 15:03:56 723

转载 MapReduce高级编程之自定义DataType

Hadoop是用JAVA语言实现,然而它的基本数据类型却不是标准的JAVA对象,而是对他们的一个封装,序列化     序列化是指将结构化对象转换为字节流,以便于在网络上进行传输或写到磁盘进行永久存储     Hadoop常用的数据类型有:                 这一套数据类型虽然能满足大部分的需求,但有些情况下要写出更灵活的程序,还是需要定制自己的Writable类型

2013-02-23 15:03:18 589

转载 MapReduce高级编程之mapreduce间的组合式,迭代式,链式

前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce    一些复杂的任务难以用一次mapreduce处理完成,需要多次mapreduce才能完成任务,例如Pagrank,Kmeans算法都需要多次的迭代,关于mapreduce迭代在

2013-02-23 15:02:38 853

转载 YCSB 对HBase 性能测试

我认真的在想,关在牢里面的人,不一定比放在外面的人坏。 -- 三毛    这篇文章放草稿箱快两个多月了,今天突然被告知,要换方向,看了近三个月的HBase就这样别了,很突然。  刚开始装上HBase系统,再还没什么应用的情况下,就不知拿着它干嘛,好吧,测试一下。    HBase的版本是:0.90.5 Hadoop的版本是:1.0.0,分布式部署,一共四个节点。  测试工具是:YC

2013-02-23 14:58:35 940

转载 Hadoop中常用的InputFormat、OutputFormat(转)

Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据,每一个Map Reduce程序都离不开它们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的:TextInputFormat 作为默认的文件输入格式,用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一

2013-02-23 14:53:51 1170

转载 hadoop 各类key value分隔符参数

原文地址:http://wingmzy.iteye.com/blog/1260570hadoop中的map-reduce是处理这样的键值对,故指定的分割符等参数可以分成三类:map输出时分割符分桶时的分隔符reduce输出时的分割符下面分别叙述:1. map输出时分割符参数:stream.map.output.field.sepa

2013-02-23 14:51:44 1382

转载 hadoop 权限管理

Hadoop权限管理Category: 第一代MapReduce(MRv1) View: 6,727 阅 Author: Dong作者:Dong |新浪微博:西成懂 |可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce/hadoop-permission-man

2013-02-23 14:49:23 565

转载 hadoop Capacity Scheduler使用手记

由于集群资源有限,为了保证重要任务能够分配到足够的槽位,决定将hadoop的HIHO调度器换成Capacity Scheduler (Fair Scheduler无法实现最大槽位占有限制)。     首先修改mapred-site.xml,在其中添加配置项:[html] view plaincopyproperty>    name>mapred.jobtracke

2013-02-23 14:46:54 773

转载 tair2.2 的使用与维护 faq(更新中)

tair2.2 的使用与维护 faq1 data server 和 config server 在启动的时候有什么顺序吗?因为config server 需要检查data server的状态, 所以我们要求在系统启动的时候要先启动data server 后启动config server. 同样, 系统停止的时候要先停止config server 后停止data server.2 g

2013-02-23 14:45:08 530

转载 Tair: 淘宝的key/value解决方案

今天我们对外开源了Tair,Tair是由淘宝开发的key/value解决方案,你可以在这里获取更多信息。Tair在淘宝有着大规模的应用,在你登录淘宝、查看商品详情页面、在淘江湖和好友“捣浆糊”等等时候,后面都在直接或间接的和Tair交互。Tair是什么Tair是一个分布式的key/value结构数据的解决方案,系统默认支持基于内存和文件的存储引擎,对应于通常我们所说的缓存和持久化存储。

2013-02-23 14:44:22 600

转载 mahout in action 2.3 推荐器考核

这是一个推荐引擎的工作,用来解释下面的问题:“对用户来说,怎么的推荐数据才是最好的”。在搞清楚这个的答案之前,我们首先应该解决这个问题。一个好的推荐数据精度指的是什么?我们需要知道产出一个怎么样的推荐器来产生他们?本节的下面部分将会探讨对一个推荐器的考核。因为它是一个工具,当我们开始思考特殊的推荐系统时,它将会是很有用的。最优秀的推荐器,能够感知你的心灵。它以某种方式知道你可能很喜欢某个的

2013-02-23 14:27:51 633

转载 mahout in action 2.2 运行首个推荐引擎

Mahout包含一个推荐引擎的几种类型,事实上包含传统的基于用户(user-based),基于项目(item-based)推荐算法,也包括基于“slope-one”技术的实现(这一个新的有效的方法)。你将根据实验,基于单机版的(SVD)初步实现。在下面的章节里,我们将会在Mahout的背景下和一些现实生活中的例子,来回顾上面的观察结果。我们将会考虑如何代表数据,如何进行有效的推荐算法,如何评估

2013-02-23 14:26:50 635

转载 mahout in action 1 初识Mahout

本章内容:.什么是mahout.初识推荐引擎,聚类,分类在现实生活.建立mahout你们可能已经从标题中猜出,这本书是关于一个特定的工具Mahout,在现实生活中使用。那么什么是mahout?Mahout是一个Apache的开源机器学习项目。该算法属于广阔的 “机器学习”,或“集体智慧的伞形结构。这就可以代表很多东西,但此时此刻,我们关心Mahout的主要部分是

2013-02-23 14:22:42 490

转载 MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里

2013-02-23 14:18:36 545

转载 Java 数据结构和算法

http://wenku.baidu.com/view/24a52bf8fab069dc502201c8.html

2013-02-23 14:17:11 334

转载 Hadoop集群性能优化技术研究

摘要:Hadoop技术已经在互联网领域得到广泛的应用,同时也得到了学术界的普遍关注。该文介绍了Hadoop作为基础数据处理平台仍然存在的问题,阐明了Hadoop性能优化技术研究的必然性,并介绍了当前Hadoop优化的三个主要思路:从应用程序角度进行优化、对Hadoop系统参数进行优化和对Hadoop作业调度算法进行优化。Hadoop集群优化对于提高系统性能和执行效率具有重大的意义。  [如

2013-02-23 14:15:22 1077

转载 Apache Mahout 简介

简介: 当研究院和企业能获取足够的专项研究预算之后,能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧(比如说集群、协作筛选和分类)的需求前所未有地增长,无论是查找一大群人的共性还是自动标记海量 Web 内容。Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示

2013-02-23 14:13:54 883

转载 基于HBASE的并行计算架构之rowkey设计篇

1.大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10点,但是在下午5点才结束闭并生成出来,这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据,统计数据也有时间属性,统计数据如果进行保存必须保证在统计计算之后数据尽量不再变化,如果统计发生后

2013-02-22 11:38:11 623

转载 Flume源代码解读五

[ xcly原创于iteye,见http://xcly.iteye.com ] 本节介绍Flume存储配置项的工作方式,Flume支持zookeeper和memory两种方式。      FlumeMaster启动时,创建ConfigStore。 如果为zookeeper方式,还初始化ZooKeeperService。对ConfigStore的使用通过ConfigurationMa

2013-02-19 18:44:15 504

转载 Flume源代码解读四

[ xcly原创于iteye,见http://xcly.iteye.com ]     今天介绍Flume里面用到的BackoffAlgo算法,接口由BackoffPolicy定义,让我们看看下面的几个关键的方法reset:Reset backoff state. Call this after successful attempts.每一次成功调用之后reset状态。backof

2013-02-19 18:43:49 517

转载 Flume源代码解读三

[ xcly原创于iteye,见http://xcly.iteye.com ]  本节重点介绍 agentSink中ENDTOEND的实现。   每一个节点通过source获得事件Event,然后由sink处理,sink同source一样,flume提供了多种实现,sink的生成同Flume源代码解读一中介绍的实现方式类似,由SinkFactory工厂方法实现,跟SourceFac

2013-02-19 18:42:53 601

转载 Flume源代码解读二

[ xcly原创于iteye,见http://xcly.iteye.com ]   接上次介绍tailDir的实现后,这次介绍节点的启动。节点的启动实现在高版本中会有所区别,这次针对flume0.9.3. 启动Flume Master或者Node一般都用FlumeWatchdog启动,生成pid文件,判断配置读取,利用Watchdog,  利用Runtime的exec来启动新的进程

2013-02-19 18:42:09 737

转载 Flume源代码解读一

[ xcly原创于iteye,见http://xcly.iteye.com ]    年初团队接了搭建公司Hadoop平台的研发计划,负责公司产品日志的收集,分析两个工作。   日志收集准备搭建flume(0.9.3)这个分布式日志收集集群.背景介绍完毕,马上开始。 Flume分为agent,collector,master三个概念节点,agent负责收集日志,发到collec

2013-02-19 18:40:47 673

转载 跟着示例学Oozie

在前一篇文章《Oozie简介》中,我们已经描述了Oozie工作流服务器,并且展示了一个非常简单的工作流示例。我们还描述了针对Oozie的工作流的部署和配置,以及用来启动、停止和监控Oozie工作流的工具。相关厂商内容12306插件引发GitHub故障,GitHub资深运维工程师确认参加QCon北京2013,现身说法《程序员必知97件事》合著者Kevlin确认参加QCon北京20

2013-02-17 17:47:59 729

转载 Oozie简介

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍Oozie以及使用它的一些方式。相关厂商内容个性能测试专家,7dtest.com创始人高楼(Zee)

2013-02-17 17:47:09 608

转载 为Hadoop的namenode做NFS灾备步骤

这里我简单的描述下如何给Hadoop的namenode做NFS灾备(以ubuntu为例)1.首先选定一台灾备机器作为NFS服务器    (1)安装如下:                       apt-get install nfs-kernel-server  (NFS服务器,提供nfs服务)                        apt-get install

2013-02-08 10:55:05 579

转载 云计算平台管理的三大利器Nagios、Ganglia和Splunk

文 / 杨俊华综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,就可轻松管理Hadoop/HBase云计算平台。云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营。而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战。如果没有方便的监控报警平台,对

2013-02-08 10:53:21 487

转载 centos的twitter storm安装和storm-start的本地运行

这里介绍一下storm的基本安装和不用lein的storm-starter运行方法。一. Storm及相关软件安装1. 安装python2.7.2============================# wgethttp://www.python.org/ftp/python/2.7.2/Python-2.7.2.tgz# tar zxvf Python-2.7.2.

2013-02-08 10:47:48 917

转载 Storm搭建、安装、以及环境配置

准备工作: 1. 首先安装zookeeper,然后验证zookeeper正确性:  bin/zkCli.sh -server 127.0.0.1:2181 2.安装kafkaDownload a recent stable release.> tar xzf kafka-.tgz> cd kafka-> ./sbt update> ./sbt pack

2013-02-08 10:45:25 1142

转载 Twitter Storm入门

作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/138/twitter-storm入门/ 本文翻译自: https://github.com/nathanmarz/storm/wiki/Tutorial在这个教程里面我们将学习如何创建Topologies,

2013-02-08 10:44:24 817

转载 Twitter Storm 实时数据处理框架分析总结

Twitter Storm 实时数据处理框架分析总结 Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架(原来是由BackType开发,后BackType被Twitter收购,将Storm作为Twitter的实时数据分析)。实时数据处理的应用场景很广泛,如上篇文章介绍S4时所说的个性化搜索广告的会话特征分析。而Yahoo当初创建S4项目的直接业务需求就是为了在

2013-02-08 10:43:07 1028

nutch1.3在myclipse部署工程源码

nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

2011-10-31

osgi开发jar包

osgi开发jar包osgi开发jar包osgi开发jar包osgi开发jar包

2009-02-20

mysql官方中文参考.chm

mysql官方中文参考mysql官方中文参考

2009-01-07

jfreechart-1.0.9-javadocs

jfreechart-1.0.9-javadocs

2008-09-23

iReport+Flash教程(LWY)报表

iReport+Flash教程(LWY)报表

2008-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除