hadoop
crazyzhb2012
这个作者很懒,什么都没留下…
展开
-
学习hive
hive学习什么是hive? hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。为什么要使用Hive原创 2014-06-01 16:18:41 · 980 阅读 · 0 评论 -
hadoop2.6安装配置以及整合eclipse开发环境
在ubuntu14.04上安装java和hadoop环境Java安装的是/usr/lib/jvm/jdk1.7.0_721.下载,2.使用sudo创建jvm文件夹,并且cp3.解压tar–zxvf4.sudochown -R castle:castle hadoop-2.6.0修改权限5.配置环境变量~/.profile中也可以在~/.bashrc中添加#s原创 2015-01-24 11:01:09 · 3302 阅读 · 6 评论 -
YARN Apache Hadoop 的下一代MapReduce
在hadoop-0.23版本中, MapReduce已经做了一次全面的修改,这也正是我们现在所说的 MapReduce 2.0 (MRv2) 或者是 YARN.MRv2的基本思想是将JobTracker的两个主要的功能,一个是资源管理,一个是作业的调度和监控,分成各自独立的后台进程。这个思想说的是拥有一个全局的资源管理器( ResourceManager (RM)),还有一个是每个应用程序都拥有的应用主控器(ApplicationMaster (AM))。一个应用程序可以是一个传统的Map-Reduce翻译 2015-01-09 16:03:36 · 1044 阅读 · 0 评论 -
[转载]Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序
原文出自:http://phz50.iteye.com/blog/932373点击打开链接介绍一下如何在Eclipse下写第一个MapReduce程序。新说明一下我的开发环境:操作系统:在windows下使用wubi安装了ubuntu 10.10 hadoop版本:hadoop-0.20.2.tar.gzEclipse版本:eclipse-jee-helio转载 2013-07-01 08:51:34 · 902 阅读 · 0 评论 -
通过一个具体的实例来学习hive
----资源来自于官网教程Simple Example Use CasesMovieLens User RatingsFirst, create a table with tab-delimited text file format:CREATE TABLE u_data ( userid INT, movieid INT, rati原创 2014-06-08 17:27:47 · 3521 阅读 · 0 评论 -
mahout安装配置,运行kmeans算法,bin/mahout -help出现MAHOUT_LOCAL is not set; adding HADOOP_CONF_DIR to classpath
让Mahout KMeans聚类分析运行在Hadoop上这篇文章写的真是太好了,对于我这种初学mahout的菜鸟来说,原文地址:http://yoyzhou.github.io/blog/2013/06/04/mahout-clustering-with-hadoop/上一篇文章“Mahout与聚类分析”介绍了如何使用Mahout进行聚类分析的步骤,并且结合实例使用K-Means对转载 2013-07-23 21:21:35 · 4541 阅读 · 0 评论 -
用命令行运行hadoop程序WordCount,编译hadoop程序报错
用命令行运行hadoop程序,中间出现了很多错误,和大家分享一下将WordCount.java文件放在Hadoop安装目录下,我的是放在/home/administrator/hadoop-0.20.2/下,并在此目录下创建输入目录input,改目录下有输入文件file01.txt,file02.txtfile01.txt内容为:hello hadoop1hello h原创 2013-07-06 14:00:54 · 3446 阅读 · 0 评论 -
Ubuntu下eclipse开发hadoop应用程序环境配置的一些心得体会,与君共勉
完全实现WordCount程序首先我看的是这一篇文章:http://blog.csdn.net/xiaotom5/article/details/8080595#[置顶] Ubuntu下eclipse开发hadoop应用程序环境配置从头到尾都是按照他讲的,然后自己安装的时候发现里一些错误,所以在网上有找里一篇文章,感觉也很不错http://phz50.iteye.com原创 2013-06-30 21:21:37 · 1105 阅读 · 0 评论 -
mahout运行bayes贝叶斯算法步骤和报错分析全过程
使用mahout里面的bayes算法:I want to get the Bayes train input data set, so I ran the command below:mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups-p /Examples/20news-bydate-train(原创 2013-08-06 18:33:24 · 2383 阅读 · 0 评论 -
hadoop集群搭建过程-简版
ubuntu 12.04 hadoop 2.x网络配置配置静态ip /etc/network/interfaces修改机器名称,即DNS服务器信息 /etc/hosts以上的目的是使用ping 机器名称 可以通SSH无密码配置NameNode是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的原理是:master 上生成一个密钥对,将公钥拷贝到slav原创 2017-04-04 21:45:28 · 403 阅读 · 0 评论