hadoop
文章平均质量分 68
qq_23617681
这个作者很懒,什么都没留下…
展开
-
linux ubuntu系统下基于eclipse的hadoop开发环境搭建
hadoop是基于linux操作系统的。本文在linux ubuntu系统下,在eclipse下配置hadoop的开发环境。这个开发环境对linux下的hadoop伪分布式配置有效,其他配置情况不明。如果是完全分布式环境,需要重新设置core-site.xml,hdfs-site.xml,mapred-site.xml(如果启动了yarn,还是需要设置yarn-site.xml)主原创 2016-04-26 00:03:16 · 1894 阅读 · 0 评论 -
hadoop程序开发之——单机配置
hadoop共有三种配置模式:单机、伪分布式、完全分布式。单机模式:即是hadoop安装完成后的默认模式。安装完成后,不需要修改任何配置文件,就是按照单机模式运行的。此时,hadoop程序是作为一个单独的java进程来运行的。作用:方便程序调试。运行hadoop自带的jar包程序,验证hadoop是否能正确运行。例如1,运行grep例子:创建输入文件夹:mkdir ./原创 2016-04-24 16:02:13 · 347 阅读 · 0 评论 -
Hadoop程序开发之——hadoop安装
安装步骤:1、到官网下载最新的稳定版本hadoop。当前为2.7.2.格式为.tat.gz的压缩文件。这是编译好的二进制文件。另一种包含src的是源文件,需要编译才能使用。下载时,建议下载对应的mds文件。便于后面对比下载的hadoop文件是否完整。(根据md5值对比)2、解压到制定目录:sudo tar -zxvf hadoop.***.tar.gz -C /usr/原创 2016-04-24 14:41:50 · 273 阅读 · 0 评论 -
hadoop程序开发之——ssh服务安装、启动
在配置hadoop集群中,必须安装ssh服务,准确地说是安装ssh server服务。对于linux ubuntu而言,默认是没有安装ssh server服务的。所以我们必须手动安装这个服务,并启动它。操作步骤:1、检查系统是否安装了ssh服务。在终端输入命令:ssh localhost.出现如下结果则表示没有安装:ssh: connect to host localh原创 2016-04-24 13:12:26 · 2446 阅读 · 0 评论 -
hadoop运行环境安装与配置+hadoop开发环境配置(二)
本篇主要小结windows下基于Eclipse的hadoop程序开发环境搭建。hadoop的运行环境是Linux。开发环境可以选择Linux+Eclipse。也可以选择Windows+Eclipse。个人建议还是选择Windows+Eclipse,毕竟Windows还是友好些,上网查资料也方便。先决条件:1、安装好JDK,并设置好环境变量。2、安装好Ecli原创 2016-04-19 23:38:41 · 594 阅读 · 0 评论 -
hadoop运行环境安装与配置+hadoop开发环境配置(一)
这两篇主要小结在hadoop学习过程中,Linux(ubuntu)下hadoop安装与环境配置+window下开发环境的配置。这是第一篇,主要小结hadoop在ubuntu环境下的安装与配置。不对之处,请指正。一、hadoop介绍hadoop时一个分布式开源计算框架。是当前大数据领域最炙手可热的分布式计算框架。有志于大数据方向的同学,不可能不知道hadoop。h原创 2016-04-19 23:29:47 · 1514 阅读 · 0 评论 -
Hadoop安装配置、运行第一个WordCount示例程序
操作系统ubuntu。本篇目的是在单机模式下运行成功WordCount示例程序。本篇小结安装步骤,遇到的问题和解决办法。疑惑点及其思考。Hadoop是为linux而开发的,所以开发hadoop程序,包括spark最好在linux环境下。目录如下:一:Hadoop运行环境安装:java1.6安装配置Hadoop用户创建SHH安装及配置二:安装Hadoo原创 2016-04-17 11:21:45 · 2921 阅读 · 0 评论 -
hadoop程序开发实践——简单程序
本篇在hadoop上实践了几个hadoop程序。分别是:词频统计(wordcount)、数据去重、数据排序、平均成绩、单表关联、多表关联、倒排索引。对hadoop程序的运行机制,特别是mapreduce的运行过程、接口规范、shuffle有了进一步了解。对mapper、combine、reducer三个重要函数进行了重写。对输入输出文件夹input、output文件的删除、更新、上原创 2016-04-28 15:30:06 · 727 阅读 · 0 评论 -
mapreduce程序开发及伪分布式调试小结
在eclipse上编写好mapreduce程序后,就可以调试程序。调试有两种方式,本地、hdfs.博主只有一台电脑,因此用伪分布式模拟远程hdfs。问题一:输入的input、output位置默认情况下,输入的input、output文件位于mapreduce程序根目录下。若要调试mapreduce程序在远程hdfs下的运行效果,效率问题,就需要设置远程hdfs的地址和端原创 2016-04-27 14:47:19 · 837 阅读 · 0 评论 -
hadoop编程遇到的jvm问题为内存不够的解决办法
在ubuntu系统下开发hadoop程序时,遇到几个问题,小结如下。问题:内存不足,报错:There is insufficient memory for the Java Runtime Environment to continue解决方法如下:1、使用进程查看命令:ps -e | grep java。然后删除过多的java进程,释放出内存资源。这种方法治标。打开系原创 2016-04-26 16:19:26 · 4077 阅读 · 0 评论 -
Hadoop基础知识
Hadoop是Apache基金会下一个开源分布式计算平台。它的核心是HDFS和MapReduce,即Hadoop Distributed File System, MapReduce。Hadoop是云计算实现的一种方式,一种工具。Hadoop是基于java语言写的,能运行在所有可运行java语言的平台上。作用:1、为用户提供分布式基础架构。2、可以部署在低廉的硬件P原创 2016-04-13 16:05:47 · 381 阅读 · 0 评论 -
hadoop namenode启动不了解决方案
hadoop集群启动namenode时,用jps查看datanode没有启动。原因分析:由于在core-site.xml,hdfs-site.xml文件中,我没有设置如下内容。core-site.xml内容如下:hadoop.tmp.dirfile:/usr/local/hadoop/tmpAbase for other temporary directories.原创 2016-04-26 10:55:57 · 34631 阅读 · 1 评论 -
hadoop程序开发之——伪分布式配置
相比单机配置,伪分布式需要修改几个配置文件。配置文件位于/usr/local/hadoop/etc/hadoop/。每个配置以声明property的name和value的方式实现。这个时候,hadoop进程以分离的java进程运行。节点既作为namenode,又作为datanode.读取的是HDFS文件。需要修改的配置文件是:hadoop.env.shcor原创 2016-04-24 23:02:52 · 349 阅读 · 0 评论