自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

转载 MapReduce解决在海量数据中求Top K

利用MapReduce求海量数据中最大的K个数 [java] view plaincopypackage jtlyuan.csdn;  import java.io.IOException;  import org.apache.hadoop.conf.Configuration;  import org.apache

2014-03-28 14:36:30 465

转载 MapReduce求海量数据中的最大值

利用MapReduce求解海量数据文件中的最大值思路:利用Mapper类中的cleanup()函数,因为cleanup()函数是在所有的map()完成之后才执行的。[java] view plaincopypackage jtlyuan.csdn;  import java.io.IOException;  i

2014-03-28 14:31:30 776

转载 MapReduce实现单表关联

例如给出表child-parent表,要求输出grandchildren-grandparent表给出:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Jesse 输出:Tom Alice

2014-03-28 12:21:26 566

转载 MapReduce实现大矩阵乘法

引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类

2014-03-25 15:23:10 641

转载 Mahout入门--Mahout算法集

在Mahout实现的机器学习算法见下表算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Ne

2014-03-22 21:27:50 442

转载 MapReduce Design Patterns 简记

Google MapReduce 论文提到的单词计数的例子相当于这一编程实践的"hello world"l ,MapReduce 还可以解决什么问题?又有什么最佳实践和陷阱?    O’Reilly公司近些年出版了不少非常精彩的小册子,在技术类图书的内容质量和时效性上做了一个很好的平衡."MapReduce Design Patterns"就是其中一员.这本书结构相当清晰,基本上思

2014-03-22 20:22:33 438

转载 海量数据下的分布式存储与计算

存储从理论角度提到大数据存储nosql是不得不提的一个部分,CAP,BASE,ACID这些原理在过去的一些年对其有着一定的指导作用(近年来随着各种实时计算模型的发展,CAP也被渐渐打破)CAP:(Consistency-Availability-Partition Tolerance数据一致性(C): 等同于所有节点访问同一份最新的数据副本;对数据更新具备高可用性(A):

2014-03-18 08:32:19 693

转载 Apache Hadoop 的最佳实践和反模式

Apache Hadoop是一个用来构建大规模共享存储和计算设施的软件。Hadoop集群已经应用在多种研究和开发项目中,并且,Yahoo!, EBay, Facebook, LinkedIn, Twitter等公司,越来越多的的把它应用在生产环境中。 这些已有的经验是技术和投入的结晶,在许多情况下至关重要。因此,适当的使用Hadoop集群可以保证我们的投入能够获得最佳回报。这篇博文简单总结

2014-03-14 17:28:17 421

转载 那些优雅的数据结构(1) : BloomFilter——大规模数据处理利器

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例   为了说明Bloom Filter存在的重要意义,举一个实例:  假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。

2014-03-14 15:56:43 453

转载 BloomFilter——大规模数据处理利器

一、 Bloom-Filter算法简介。        Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中,其优点是空间效率和查询时间都远远超过其他算法,其不足在于Bloom- Filter存在着误判。 二、 Bloom-Filter的基本思想。       Bloom-Filter算法的核心思想就是利用多个不同的Hash函

2014-03-14 15:55:42 488

转载 BloomFilter——大规模数据处理利器

BloomFilter——大规模数据处理利器   Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例   为了说明Bloom Filter存在的重要意义,举一个实例:  假设要你写一个网络蜘蛛(web crawler

2014-03-14 15:54:31 388

转载 机器学习中的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。  本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯

2014-03-14 15:49:08 425

转载 BloomFilter——大规模数据处理利器

BloomFilter——大规模数据处理利器   Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例   为了说明Bloom Filter存在的重要意义,举一个实例:  假设要你写一个网络蜘蛛(web crawler

2014-03-14 15:46:13 371

转载 Hadoop Job Scheduler作业调度器

作者:hovlj_1130 | 可以任意转载, 但转载时务必以超链接形式标明文章原始出处 和 作者信息 及 版权声明http://hi.baidu.com/hovlj_1130/blog/item/fb84dd1e3558d8f8e0fe0b8e.htmlHadoop Job SchedulerHadoop的作业调度器,可以以插件的方式加载,常见的作业调度器有三种:默认调度算法

2014-03-10 16:38:22 504

转载 hadoop集群添加namenode的步骤及常识

ClusterID添加了一个新的标识符ClusterID用于标识集群中所有的节点。当格式化一个Namenode,需要提供这个标识符或者自动生成。这个ID可以被用来格式化加入集群的其他Namenode。格式化Namenodes第一步: 使用如下命令格式化一个Namenode:> $HADOOP_PREFIX_HOME/bin/hdfs namenode -form

2014-03-10 16:01:09 3063

转载 hadoop集群内存设置

1. 内存hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中设置,参数为HADOOP_HEAPSIZE,默认为1000M。大部分情况下,这个统一设置的值可能并不适合。例如对于namenode节点,1000M的内存只能存储几百万个文件的数据块的引

2014-03-10 15:54:33 1040

转载 InputFormat的数据划分、Split调度、数据读取三个问题的浅析

在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发: 1、运行mapred程序;2、本次运行将生成一个Job,于是JobCli

2014-03-10 15:50:59 499

转载 hadoop中槽-slot是线程还是进程讨论

hadoop一个节点默认起两个map slot,这两个slot是多线程吗?hadoop-0.21.0 源码中是这样的:首先看看 org.apache.hadoop.mapred.TaskTracker 类:=====================================================================================

2014-03-10 15:35:10 1431

转载 Hadoop集群安全性:Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode

正如大家所知,NameNode在Hadoop系统中存在单点故障问题,这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。1. Secondary NameNode原理:Secondary NN会定期的从NN中读取editlog,与自己存储的Image进行合并形成新的metadata image优点:Hadoop较早的

2014-03-10 15:30:27 1281

转载 HDFS体系结构简介及优缺点

1 HDFS体系结构简介及优缺点1.1体系结构简介 HDFS是一个主/从(Mater/Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行CRUD(Create、Read、Update和Delete)操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode

2014-03-10 15:03:44 1109

转载 Hadoop集群作业调度算法

Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法先来先服务(FIFO)FIFO比较简单,hadoop中只有一个作业队列,被提交的作业按照先后顺序在作业队列中排队,新来的作业插入到队尾。一个作业运行完后,总是从队首取下一个作业运行。这种调度策略的优点是简单、易于实现,同时也减轻了jobtracker的负担。但是它的缺点也是显然的,它对所有的作业都一视同

2014-03-10 15:02:16 509

转载 Java常见异常(Runtime Exception )小结

Java常见异常(Runtime Exception )小结本文重在Java中异常机制的一些概念。写本文的目的在于方便我很长时间后若是忘了这些东西可以通过这篇文章迅速回忆起来。 1. 异常机制 1.1 异常机制是指当程序出现错误后,程序如何处理。具体来说,异常机制提供了程序退出的安全通道。当出现错误后,程序执行的流程发生改变,程序的控制权转移到异常处理器。 1.2 传统的处理异

2014-03-09 11:08:49 562

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除