江南浙里-CSDN博客

1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce，hadoop2.0还包括YARN。下图为hadoop的生态系统：2、HDFS（Hadoop分布式文件系统）源自于Google的GFS论文，发表于2003年10月，HDFS是G

2015-04-06 16:34:30 570

转载 MapReduce简介

1.MapReduce框架简介要设计倒排索引这个算法，那么我们首先得知道MapReduce框架中的InputFormat类，Mapper类,Partition过程，sort过程，Combine类,Reduce类的设计原理。1.1InputFormat类 InputFormat类的作用是什么呢？其实就是把输入的数据(就是你上传到hdfs的文件)切

2015-04-06 16:17:58 399

转载 hadoop倒排索引

1.前言学习hadoop的童鞋，倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先，我们来认识下什么是倒拍索引：倒排索引简单地就是：根据单词，返回它在哪个文件中出现过，而且频率是多少的结果。这就像百度里的搜索，你输入一个关键字，那么百度引擎就迅速的在它的服务器里找到有该关键字的文件，并根据频率和其他一些策略（如页面点击投票率）等来给你返回结果

2015-04-06 16:12:50 668

转载 hadoop家族Pig和Hive有什么不同啊？

对于开发人员，直接使用Java APIs可能是乏味或容易出错的，同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案，使得Hadoop编程变得更加容易。 HIVE简单来讲是为传统数据库工程师服务的，可以把sql转换为MapReduce. HIVE介于Pig和传统的RDBMS之间，和Pig一样，Hive也被设计为HDFS作为存储，但是他们

2015-02-08 13:31:28 591

原创 Pig实例:使用Pig latin来求年最高气温(测试NCDC天气数据)

如何使用Pig latin来求年最高气温？

2015-02-07 13:32:26 1139

因特网公司对海量数据的按需分析处理目前基本采用Map/Reduce编程模型。尽管如此，Map/Reduce也存在一些限制，它的单输入，两阶段数据流编程模式过于苛刻，对于超出该限制之外的数据分析任务，需要进行一些额外的数据转换。另外，它没有通用操作集，即使是对最通用的操作，如：projection和filtering。这些限制导致Map/Reduce代码重用性和可维护性不高，任务的分析语义不够清晰，

2015-02-07 13:10:08 698

原创专利数据集的MR程序-MultipleOutputs

利用mr程序,根据国家将专利元数据分割到多个目录,同时,将输入数据的不同列提取为不同文件的程序

2015-02-06 11:43:07 720

原创 Ubuntu 14.04 LTS下安装Google Chrome浏览器

Ubuntu 14.04 LTS下安装Google Chrome浏览器

2015-02-05 11:02:05 1685

原创专利数据集的MR程序

利用mapreduce进行专利数据集数据计算

2015-02-04 16:40:36 807

mysql-connector-java-5.1.16-bin.jar

mysql-connector-java-5.1.16-bin.jar用于配置sqoop,mysql驱动包

2015-04-14

libindicator7_12.10.2+14.04.20141007.1-0ubuntu1_i386.deb

libindicator7_12.10.2+14.04.20141007.1-0ubuntu1_i386.deb解决chrome安装包

2015-04-08

simiraly.pig

该代码是hadoop in action 书籍中的Pig latin源代码,用于计算专利相似,书源代码中一行有误,该资料已修改

2015-02-07

simiralitycite.pig

该程序是pig案例,对专利进行相似计算统计,可参考我的博文:<<Pig 实例：发现相似专利>>

2015-02-07

ncdc_data.txt

ncdc_data.txt是用于pig实例测试的数据,可以参考我的文章Pig实例:测试NCDC天气数据.

2015-02-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

江南浙里的专栏

原创 Ubuntu安装Ganglia并监控Hadoop集群

原创 Ubuntu上安装 LAMP Server

原创 mapreduce程序的压缩实现

原创如何在开发环境中创建mapreduce程序

原创 mahout-0.9源码编译过程

原创 hadoop-2.4.0源码编译过程

原创 hadoop2.4.0源码编译问题

原创 Linux时间服务器配置

原创 ubuntu为apt-get设置http代理

原创 Linux下MySQL默认编码修改

原创 Linux下mysql命令总结

原创 sqoop1.99.4搭建(hadoop2.4.0)

转载 Hadoop生态系统介绍

转载 MapReduce简介

转载 hadoop倒排索引

转载 hadoop家族Pig和Hive有什么不同啊？

原创 Pig实例:使用Pig latin来求年最高气温(测试NCDC天气数据)

转载 Pig 实例：发现相似专利

原创专利数据集的MR程序-MultipleOutputs

原创 Ubuntu 14.04 LTS下安装Google Chrome浏览器

原创专利数据集的MR程序

mysql-connector-java-5.1.16-bin.jar

libindicator7_12.10.2+14.04.20141007.1-0ubuntu1_i386.deb

simiraly.pig

simiralitycite.pig

ncdc_data.txt

空空如也