- 博客(21)
- 资源 (6)
- 收藏
- 关注
转载 Hadoop生态系统介绍
1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是G
2015-04-06 16:34:30 570
转载 MapReduce简介
1.MapReduce框架简介 要设计倒排索引这个算法,那么我们首先得知道MapReduce框架中的InputFormat类,Mapper类,Partition过程,sort过程,Combine类,Reduce类的设计原理。1.1InputFormat类 InputFormat类的作用是什么呢?其实就是把输入的数据(就是你上传到hdfs的文件)切
2015-04-06 16:17:58 399
转载 hadoop倒排索引
1.前言 学习hadoop的童鞋,倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先,我们来认识下什么是倒拍索引: 倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字的文件,并根据频率和其他一些策略(如页面点击投票率)等来给你返回结果
2015-04-06 16:12:50 668
转载 hadoop家族Pig和Hive有什么不同啊?
对于开发人员,直接使用Java APIs可能是乏味或容易出错的,同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案,使得Hadoop编程变得更加容易。 HIVE简单来讲是为传统数据库工程师服务的,可以把sql转换为MapReduce. HIVE介于Pig和传统的RDBMS之间,和Pig一样,Hive也被设计为HDFS作为存储,但是他们
2015-02-08 13:31:28 591
转载 Pig 实例:发现相似专利
因特网公司对海量数据的按需分析处理目前基本采用Map/Reduce编程模型。尽管如此,Map/Reduce也存在一些限制,它的单输入,两阶段数据流编程模式过于苛刻,对于超出该限制之外的数据分析任务,需要进行一些额外的数据转换。另外,它没有通用操作集,即使是对最通用的操作,如:projection和filtering。这些限制导致Map/Reduce代码重用性和可维护性不高,任务的分析语义不够清晰,
2015-02-07 13:10:08 698
原创 专利数据集的MR程序-MultipleOutputs
利用mr程序,根据国家将专利元数据分割到多个目录,同时,将输入数据的不同列提取为不同文件的程序
2015-02-06 11:43:07 720
mysql-connector-java-5.1.16-bin.jar
2015-04-14
libindicator7_12.10.2+14.04.20141007.1-0ubuntu1_i386.deb
2015-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人