2013年02月_豹先生_MR-BAO

原创收藏搬家了

qq书签收藏搬家到csdn来了，QQ2013把qq书签给去掉了，无奈啊~~~

2013-02-08 10:38:23 596

转载基于myhout探索推荐引擎内部的秘密，第 3 部分: 深入推荐引擎相关算法 - 聚类

聚类分析什么是聚类分析？聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster)，它的目标是：在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。所以，在很多应用中，一个簇中的数据对象可以被作为一个整体来对待，从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为，即所谓“物以类聚，人以群分”，核心的思想也就是聚类。人们总是不断

2013-02-27 18:04:41 911

转载基于myhout探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探

“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用。同时在理论讲解的基础上，还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略，进行策略优化，构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章，将深入介绍推荐引擎的工作原理，和其中涉及的各种推荐机制，以及它们各自的优缺点和适用场景，帮助

2013-02-27 18:00:50 771

转载 MapReduce高级编程之本地聚集与Combinner

本篇主要介绍Combinner，这个MapReduce Shuffle中占有重要地位，他能减少磁盘I/O以及网络Fetch时的数据迁移量，在MapReduce Shuffle中存在着三次排序（Map端两次，reduce端一次），每次排序时便会用上一次Combinner函数，也就是这个可有可无的函数一旦定义会被三次调用~~ 然而Combinner的使用需要注意程序的差错性，而且有些情况是

2013-02-23 15:04:39 640

转载 MapReduce高级编程之自定义InputFormat

InputFormat是MapReduce中一个很常用的概念，它在程序的运行中到底起到了什么作用呢？InputFormat其实是一个接口，包含了两个方法：public interface InputFormat { InputSplit[] getSplits(JobConf job, int numSplits) throws IOException; RecordReade

2013-02-23 15:03:56 723

转载 MapReduce高级编程之自定义DataType

Hadoop是用JAVA语言实现，然而它的基本数据类型却不是标准的JAVA对象，而是对他们的一个封装，序列化序列化是指将结构化对象转换为字节流，以便于在网络上进行传输或写到磁盘进行永久存储 Hadoop常用的数据类型有：这一套数据类型虽然能满足大部分的需求，但有些情况下要写出更灵活的程序，还是需要定制自己的Writable类型

2013-02-23 15:03:18 589

转载 MapReduce高级编程之mapreduce间的组合式，迭代式，链式

前面介绍一些怎样用户类制定自己的类，来达到减少中间数据：http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成，需要多次mapreduce才能完成任务，例如Pagrank，Kmeans算法都需要多次的迭代，关于mapreduce迭代在

2013-02-23 15:02:38 853

转载 YCSB 对HBase 性能测试

我认真的在想，关在牢里面的人，不一定比放在外面的人坏。 -- 三毛这篇文章放草稿箱快两个多月了，今天突然被告知，要换方向，看了近三个月的HBase就这样别了，很突然。　刚开始装上HBase系统，再还没什么应用的情况下，就不知拿着它干嘛，好吧，测试一下。 HBase的版本是：0.90.5 Hadoop的版本是：1.0.0，分布式部署，一共四个节点。　　测试工具是：YC

2013-02-23 14:58:35 940

转载 Hadoop中常用的InputFormat、OutputFormat（转）

Hadoop中的Map Reduce框架依赖InputFormat提供数据，依赖OutputFormat输出数据，每一个Map Reduce程序都离不开它们。Hadoop提供了一系列InputFormat和OutputFormat方便开发，本文介绍几种常用的：TextInputFormat 作为默认的文件输入格式，用于读取纯文本文件，文件被分为一系列以LF或者CR结束的行，key是每一

2013-02-23 14:53:51 1170

转载 hadoop 各类key value分隔符参数

原文地址：http://wingmzy.iteye.com/blog/1260570hadoop中的map-reduce是处理这样的键值对，故指定的分割符等参数可以分成三类：map输出时分割符分桶时的分隔符reduce输出时的分割符下面分别叙述：1. map输出时分割符参数：stream.map.output.field.sepa

2013-02-23 14:51:44 1382

转载 hadoop 权限管理

2013-02-23 14:49:23 565

转载 hadoop Capacity Scheduler使用手记

由于集群资源有限，为了保证重要任务能够分配到足够的槽位，决定将hadoop的HIHO调度器换成Capacity Scheduler （Fair Scheduler无法实现最大槽位占有限制）。首先修改mapred-site.xml，在其中添加配置项：[html] view plaincopyproperty> name>mapred.jobtracke

2013-02-23 14:46:54 773

转载 tair2.2 的使用与维护 faq(更新中)

tair2.2 的使用与维护 faq1 data server 和 config server 在启动的时候有什么顺序吗?因为config server 需要检查data server的状态, 所以我们要求在系统启动的时候要先启动data server 后启动config server. 同样, 系统停止的时候要先停止config server 后停止data server.2 g

2013-02-23 14:45:08 530

转载 Tair: 淘宝的key/value解决方案

今天我们对外开源了Tair，Tair是由淘宝开发的key/value解决方案，你可以在这里获取更多信息。Tair在淘宝有着大规模的应用，在你登录淘宝、查看商品详情页面、在淘江湖和好友“捣浆糊”等等时候，后面都在直接或间接的和Tair交互。Tair是什么Tair是一个分布式的key/value结构数据的解决方案，系统默认支持基于内存和文件的存储引擎，对应于通常我们所说的缓存和持久化存储。

2013-02-23 14:44:22 600

转载 mahout in action 2.3 推荐器考核

这是一个推荐引擎的工作，用来解释下面的问题：“对用户来说，怎么的推荐数据才是最好的”。在搞清楚这个的答案之前，我们首先应该解决这个问题。一个好的推荐数据精度指的是什么？我们需要知道产出一个怎么样的推荐器来产生他们？本节的下面部分将会探讨对一个推荐器的考核。因为它是一个工具，当我们开始思考特殊的推荐系统时，它将会是很有用的。最优秀的推荐器，能够感知你的心灵。它以某种方式知道你可能很喜欢某个的

2013-02-23 14:27:51 633

转载 mahout in action 2.2 运行首个推荐引擎

Mahout包含一个推荐引擎的几种类型，事实上包含传统的基于用户（user-based），基于项目（item-based）推荐算法，也包括基于“slope-one”技术的实现（这一个新的有效的方法）。你将根据实验，基于单机版的（SVD）初步实现。在下面的章节里，我们将会在Mahout的背景下和一些现实生活中的例子，来回顾上面的观察结果。我们将会考虑如何代表数据，如何进行有效的推荐算法，如何评估

2013-02-23 14:26:50 635

转载 mahout in action 1 初识Mahout

本章内容：.什么是mahout.初识推荐引擎，聚类，分类在现实生活.建立mahout你们可能已经从标题中猜出,这本书是关于一个特定的工具Mahout,在现实生活中使用。那么什么是mahout？Mahout是一个Apache的开源机器学习项目。该算法属于广阔的 “机器学习”,或“集体智慧的伞形结构。这就可以代表很多东西,但此时此刻,我们关心Mahout的主要部分是

2013-02-23 14:22:42 490

转载 MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里

2013-02-23 14:18:36 545

转载 Java 数据结构和算法

http://wenku.baidu.com/view/24a52bf8fab069dc502201c8.html

2013-02-23 14:17:11 334

转载 Hadoop集群性能优化技术研究

摘要：Hadoop技术已经在互联网领域得到广泛的应用，同时也得到了学术界的普遍关注。该文介绍了Hadoop作为基础数据处理平台仍然存在的问题，阐明了Hadoop性能优化技术研究的必然性，并介绍了当前Hadoop优化的三个主要思路：从应用程序角度进行优化、对Hadoop系统参数进行优化和对Hadoop作业调度算法进行优化。Hadoop集群优化对于提高系统性能和执行效率具有重大的意义。　　[如

2013-02-23 14:15:22 1077

转载 Apache Mahout 简介

简介：当研究院和企业能获取足够的专项研究预算之后，能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧（比如说集群、协作筛选和分类）的需求前所未有地增长，无论是查找一大群人的共性还是自动标记海量 Web 内容。Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念，并演示

2013-02-23 14:13:54 883

转载基于HBASE的并行计算架构之rowkey设计篇

1.大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据，事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生，也可能不会顺序产生，比如某些事务发生在早上10点，但是在下午5点才结束闭并生成出来，这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据，统计数据也有时间属性，统计数据如果进行保存必须保证在统计计算之后数据尽量不再变化，如果统计发生后

2013-02-22 11:38:11 623

转载 Flume源代码解读五

[ xcly原创于iteye,见http://xcly.iteye.com ] 本节介绍Flume存储配置项的工作方式，Flume支持zookeeper和memory两种方式。 FlumeMaster启动时，创建ConfigStore。如果为zookeeper方式，还初始化ZooKeeperService。对ConfigStore的使用通过ConfigurationMa

2013-02-19 18:44:15 504

转载 Flume源代码解读四

[ xcly原创于iteye,见http://xcly.iteye.com ] 今天介绍Flume里面用到的BackoffAlgo算法，接口由BackoffPolicy定义，让我们看看下面的几个关键的方法reset：Reset backoff state. Call this after successful attempts.每一次成功调用之后reset状态。backof

2013-02-19 18:43:49 517

转载 Flume源代码解读三

[ xcly原创于iteye,见http://xcly.iteye.com ] 本节重点介绍 agentSink中ENDTOEND的实现。每一个节点通过source获得事件Event,然后由sink处理，sink同source一样，flume提供了多种实现，sink的生成同Flume源代码解读一中介绍的实现方式类似，由SinkFactory工厂方法实现，跟SourceFac

2013-02-19 18:42:53 601

转载 Flume源代码解读二

[ xcly原创于iteye,见http://xcly.iteye.com ] 接上次介绍tailDir的实现后，这次介绍节点的启动。节点的启动实现在高版本中会有所区别，这次针对flume0.9.3. 启动Flume Master或者Node一般都用FlumeWatchdog启动，生成pid文件，判断配置读取，利用Watchdog，利用Runtime的exec来启动新的进程

2013-02-19 18:42:09 737

转载 Flume源代码解读一

[ xcly原创于iteye,见http://xcly.iteye.com ] 年初团队接了搭建公司Hadoop平台的研发计划，负责公司产品日志的收集，分析两个工作。日志收集准备搭建flume(0.9.3)这个分布式日志收集集群.背景介绍完毕，马上开始。 Flume分为agent,collector,master三个概念节点，agent负责收集日志，发到collec

2013-02-19 18:40:47 673

转载跟着示例学Oozie

在前一篇文章《Oozie简介》中，我们已经描述了Oozie工作流服务器，并且展示了一个非常简单的工作流示例。我们还描述了针对Oozie的工作流的部署和配置，以及用来启动、停止和监控Oozie工作流的工具。相关厂商内容12306插件引发GitHub故障，GitHub资深运维工程师确认参加QCon北京2013，现身说法《程序员必知97件事》合著者Kevlin确认参加QCon北京20

2013-02-17 17:47:59 729

转载 Oozie简介

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起，这样才能够达到目的。[1]在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie[2]，它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。本文中，我们会向你介绍Oozie以及使用它的一些方式。相关厂商内容个性能测试专家，7dtest.com创始人高楼（Zee）

2013-02-17 17:47:09 608

转载为Hadoop的namenode做NFS灾备步骤

这里我简单的描述下如何给Hadoop的namenode做NFS灾备（以ubuntu为例）1.首先选定一台灾备机器作为NFS服务器（1）安装如下： apt-get install nfs-kernel-server (NFS服务器,提供nfs服务) apt-get install

2013-02-08 10:55:05 579

转载云计算平台管理的三大利器Nagios、Ganglia和Splunk

文 / 杨俊华综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系，具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统，就可轻松管理Hadoop/HBase云计算平台。云计算早已不是停留在概念阶段了，各大公司都购买了大量的机器，开始正式的部署和运营。而动辄上百台的性能强劲的服务器，为运营管理带来了巨大的挑战。如果没有方便的监控报警平台，对

2013-02-08 10:53:21 487

转载 centos的twitter storm安装和storm-start的本地运行

这里介绍一下storm的基本安装和不用lein的storm-starter运行方法。一. Storm及相关软件安装1. 安装python2.7.2============================# wgethttp://www.python.org/ftp/python/2.7.2/Python-2.7.2.tgz# tar zxvf Python-2.7.2.

2013-02-08 10:47:48 917

转载 Storm搭建、安装、以及环境配置

准备工作： 1. 首先安装zookeeper，然后验证zookeeper正确性： bin/zkCli.sh -server 127.0.0.1:2181 2.安装kafkaDownload a recent stable release.> tar xzf kafka-.tgz> cd kafka-> ./sbt update> ./sbt pack

2013-02-08 10:45:25 1142

转载 Twitter Storm入门

2013-02-08 10:44:24 817

转载 Twitter Storm 实时数据处理框架分析总结

Twitter Storm 实时数据处理框架分析总结 Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架（原来是由BackType开发，后BackType被Twitter收购，将Storm作为Twitter的实时数据分析）。实时数据处理的应用场景很广泛，如上篇文章介绍S4时所说的个性化搜索广告的会话特征分析。而Yahoo当初创建S4项目的直接业务需求就是为了在

2013-02-08 10:43:07 1028

nutch1.3在myclipse部署工程源码

osgi开发jar包

mysql官方中文参考.chm

jfreechart-1.0.9-javadocs

iReport+Flash教程(LWY)报表

空空如也