自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (6)
  • 收藏
  • 关注

原创 Ubuntu安装Ganglia并监控Hadoop集群

Ubuntu14.04上安装 Ganglia并监控Hadoop集群

2015-04-27 22:11:43 3457

原创 Ubuntu上安装 LAMP Server

Ubuntu14.04LTS-32bit系统上安装 LAMP Server

2015-04-27 21:41:47 1929

原创 mapreduce程序的压缩实现

mapreduce程序的压缩实现

2015-04-22 18:20:59 478

原创 如何在开发环境中创建mapreduce程序

如何在开发环境中创建mapreduce程序

2015-04-21 09:37:17 607

原创 mahout-0.9源码编译过程

maven编译mahout0.9源代码

2015-04-19 23:06:24 1385

原创 hadoop-2.4.0源码编译过程

hadoop2.4.0源码编译过程

2015-04-19 12:03:53 714

原创 hadoop2.4.0源码编译问题

用maven编译hadoop2.4.0源码

2015-04-19 10:59:18 868

原创 Linux时间服务器配置

Hadoop集群配置ntp时间服务器

2015-04-18 11:14:13 737

原创 ubuntu为apt-get设置http代理

ubuntu为apt-get设置http代理

2015-04-18 10:49:22 7778

原创 Linux下MySQL默认编码修改

Linux下MySQL默认编码修改

2015-04-17 15:46:56 473

原创 Linux下mysql命令总结

mysql命令大全

2015-04-17 09:47:32 847

原创 sqoop1.99.4搭建(hadoop2.4.0)

hadoop2.4.0搭建sqoop1.99.4

2015-04-14 19:12:45 1544 2

转载 Hadoop生态系统介绍

1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是G

2015-04-06 16:34:30 570

转载 MapReduce简介

1.MapReduce框架简介        要设计倒排索引这个算法,那么我们首先得知道MapReduce框架中的InputFormat类,Mapper类,Partition过程,sort过程,Combine类,Reduce类的设计原理。1.1InputFormat类        InputFormat类的作用是什么呢?其实就是把输入的数据(就是你上传到hdfs的文件)切

2015-04-06 16:17:58 399

转载 hadoop倒排索引

1.前言        学习hadoop的童鞋,倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先,我们来认识下什么是倒拍索引:        倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字的文件,并根据频率和其他一些策略(如页面点击投票率)等来给你返回结果

2015-04-06 16:12:50 668

转载 hadoop家族Pig和Hive有什么不同啊?

对于开发人员,直接使用Java APIs可能是乏味或容易出错的,同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案,使得Hadoop编程变得更加容易。    HIVE简单来讲是为传统数据库工程师服务的,可以把sql转换为MapReduce.    HIVE介于Pig和传统的RDBMS之间,和Pig一样,Hive也被设计为HDFS作为存储,但是他们

2015-02-08 13:31:28 591

原创 Pig实例:使用Pig latin来求年最高气温(测试NCDC天气数据)

如何使用Pig latin来求年最高气温?

2015-02-07 13:32:26 1139

转载 Pig 实例:发现相似专利

因特网公司对海量数据的按需分析处理目前基本采用Map/Reduce编程模型。尽管如此,Map/Reduce也存在一些限制,它的单输入,两阶段数据流编程模式过于苛刻,对于超出该限制之外的数据分析任务,需要进行一些额外的数据转换。另外,它没有通用操作集,即使是对最通用的操作,如:projection和filtering。这些限制导致Map/Reduce代码重用性和可维护性不高,任务的分析语义不够清晰,

2015-02-07 13:10:08 698

原创 专利数据集的MR程序-MultipleOutputs

利用mr程序,根据国家将专利元数据分割到多个目录,同时,将输入数据的不同列提取为不同文件的程序

2015-02-06 11:43:07 720

原创 Ubuntu 14.04 LTS下安装Google Chrome浏览器

Ubuntu 14.04 LTS下安装Google Chrome浏览器

2015-02-05 11:02:05 1685

原创 专利数据集的MR程序

利用mapreduce进行专利数据集数据计算

2015-02-04 16:40:36 807

mysql-connector-java-5.1.16-bin.jar

mysql-connector-java-5.1.16-bin.jar用于配置sqoop,mysql驱动包

2015-04-14

libindicator7_12.10.2+14.04.20141007.1-0ubuntu1_i386.deb

libindicator7_12.10.2+14.04.20141007.1-0ubuntu1_i386.deb解决chrome安装包

2015-04-08

simiraly.pig

该代码是hadoop in action 书籍中的Pig latin源代码,用于计算专利相似,书源代码中一行有误,该资料已修改

2015-02-07

simiralitycite.pig

该程序是pig案例,对专利进行相似计算统计,可参考我的博文:<<Pig 实例:发现相似专利>>

2015-02-07

ncdc_data.txt

ncdc_data.txt是用于pig实例测试的数据,可以参考我的文章Pig实例:测试NCDC天气数据.

2015-02-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除