hadoop
草莓味的风
keep clam and code on
展开
-
(二)MapReduce之排序、分区、计数器和Combiner
一、排序 Text IntWritable等自带比较规则 hadoop提供了比较器,可以重新定义排序规则 方法:继承Text、IntWritable类中的Comparator类,并重写compare方法 将wordcount中的结果按字典顺序倒序,重新排序:import org.apache.hadoop.io.Text;/*重写Text的比较方法,将结果按字典序倒序...原创 2018-05-17 15:25:55 · 636 阅读 · 0 评论 -
【解决】slave机器上的NodeManager启动一段时间之后自动结束
问题如题,查看hadoop/logs下nodemanager的日志(日志位置:hadoop安装目录/logs/yarn-root-nodemanager-slave1.log)描述如下:java.net.ConnectException: Call From slave1/192.168.146.128 to 0.0.0.0:8031 failed on connection except...原创 2019-04-29 13:35:02 · 1628 阅读 · 0 评论 -
【Hadoop】伪分布式的搭建
首先,准备好三台虚拟机,一台最小化安装版本作为master节点,两台正常的虚拟机作为slave节点,安装虚拟机可以参考:https://blog.csdn.net/hr786250678/article/details/89518684,最小化安装步骤完全相同,只不过在下面这一步时选择Minimal完成后重启就可以了,但会发现无法联网的问题,解决:https://blog.csdn.net...原创 2019-04-27 09:00:58 · 162 阅读 · 0 评论 -
【Linux】配置Hadoop(Ⅱ)
1 上传tar包到虚拟机,解压tar -zxvf hadoop-2.7.6.tar.gz2 修改名称便于使用mv hadoop-2.7.6 hadoop3 配置环境变量,在.bashrc文件中(在家目录下)加入以下变量:export HADOOP_HOME=/root/soft/hadoopexport PATH=$JAVA_HOME/bin:$HADOOP_HOME/...原创 2019-04-26 21:03:00 · 282 阅读 · 0 评论 -
【HDFS】常用API
用java代码实现Linux下的命令通过FileSystem对象操作,实现setup()和test()函数@Beforepublic void setup() throws URISyntaxException, IOException, InterruptedException { fs=FileSystem.get(new URI("hdfs://192.168.234...原创 2019-01-01 22:29:50 · 278 阅读 · 0 评论 -
【Hadoop】MapReduce打成jar包上传到Linux运行
之前写过MapReduce代码,但并没有真正在HDFS上运行。今天就把之前写过的代码打成jar包,上传到HDFS上运行。首先,翻出之前写好的mapreduce代码修改代码:①添加下面一行,指定具体的任务类job.setJarByClass(ForWorldCount.class);②修改之前指定的输入输出路径,应变为参数输入:FileInputFormat.addI...原创 2019-01-04 18:03:01 · 3109 阅读 · 1 评论 -
【HDFS】解决hadoop fs -put时出现createBlockOutputStream异常
向HDFS上传文件时出现异常:INFO hdfs.DFSClient: Exception in createBlockOutputStreamjava.io.IOException: Got error, status message , ack with firstBadLink as 192.168.234.132:50010 at org.apache.hadoop....原创 2018-12-21 12:16:58 · 1166 阅读 · 0 评论 -
【HADOOP】HDFS常用命令
HDFS命令的套路都是hadoop fs -类似linux下的Shell命令HDFS的简单命令1 从Linux上传到HDFS: hadoop fs -put <Linux Path> <HDFS Path> hadoop fs -copyFromLocal <Linux Path> <HDFS Path> ...原创 2018-12-21 13:54:58 · 748 阅读 · 0 评论 -
【Ubuntu】Linux下Hive连接MYSQL数据库的安装配置
1、找到安装包位置,解压2、创建软连接:ln -sapache-hive-1.2.2-bin hive3、环境变量的配置:vi /etc/profile HIVE_HOME=/simple/hive(Hive的安装目录) Export PATH=$HIVE_HOME/bin:$PATH4、重新加载配置文件:source /etc/profile5、启动hadoop集群(数...原创 2018-07-16 09:00:26 · 1935 阅读 · 0 评论 -
【Ubuntu】Linux下Flume的配置
1、找到安装包位置并解压2、创建软连接2、修改配置文件进入flume安装目录下的conf文件夹内,可以看到有个配置文件模板flume-env.sh.template,复制一份cp flume-env.sh.template flume-env.sh vi flume-env.sh修改export JAVA_HOME=jdk安装目录3、添加环境变量:vi /etc/profile 使配置文...原创 2018-07-12 15:26:11 · 782 阅读 · 0 评论 -
【Ubuntu】Linux下Hadoop伪分布式的配置
hadoop伪分布式的配置: 1.找到tar包所在位置,解压hadoop文件: cd /simple/soft tar -zxvf hadoop-2.4.1.tar.gz -C /simple 创建超链接:ln -s hadoop-2.4.1/ hadoop(建立指向hadoop-2.4.1的超链接hadoop,创建之后可以使用ll查看)...原创 2018-07-12 14:42:39 · 773 阅读 · 0 评论 -
【Linux】SSH免密登录
什么是免密码登录呢?看一下原理。我们有AB两台机器。A想免密码登录B。那么我们在A上生成一对公钥和私钥。然后A会将一段文本和公钥发送到B上。B用文本对公钥加密,再发回给A,A如果用私钥对文本解密后发给B如果和B最早收到的数据一样说明公钥私钥是一对,说明可以登录。因为只有一对才能解密成功。所以就是想免密登录谁就把公钥给谁。1 输入命令生成密钥:ssh-keygen-t rsa -P '...原创 2018-07-12 11:00:06 · 3574 阅读 · 0 评论 -
【Ubuntu】Linux下Sqoop的安装配置
1、找到压缩包位置,解压 2、创建软连接:ln -s sqoop-1.4.6.bin_hadoop-2.0.4-alpha sqoop3、配置环境变量:vi /etc/profile4、用模板sqoop-env-template.sh复制出一个sqoop-env.sh5、vi sqoop-env.sh,设置如下变量:6、把mysql的jar包...原创 2018-07-18 09:38:52 · 1276 阅读 · 0 评论 -
(三)MapReduce的连接问题和自定义key的合并规则
MapReduce连接的目的是把两个文件的内容,按连接条件进行连接,合并成一个文件MapReduce连接的方法有两种: 1.在Map端连接 不需要向reduce端发送数据 适合于有一个表比较小的情况 具体操作:i 将较小的文章读入到内存(Map集合) ii 读取较大的文件,得到连接字段,利用...原创 2018-05-25 17:25:12 · 1234 阅读 · 0 评论 -
MapReduce——手机流量分析
现有手机流量日志,记录有手机号码、MAC地址、IP地址、浏览内容、上行流量、下行流量等,A.分析每个手机号的总流量B.分析每个手机号的上行流量和下行流量(需要一个流量实体),将结果按总流量排序,总流量相同按下行流量排序C.求流量排行前三的手机号...原创 2018-05-10 14:58:07 · 727 阅读 · 0 评论 -
MapReduce——统计单词出现次数WordCount
package com.oracle.WorldCount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import o...原创 2018-05-06 20:19:34 · 3000 阅读 · 0 评论 -
(一)maven的引入和MapReduce初次接触
一、Maven的引入 想用MapReduce编程,需要引入hadoop的jar包 Maven的作用:导包的新技术,包和包之间是有依赖关系的,帮助我们管理依赖(即导包),是一款项目构建工具,帮助我们标准化项目结构,帮我们打包 Maven的使用: ①安装maven:不用安装,IDEA和新版本的Eclipse已经集成maven了,而且IDEA...原创 2018-05-04 21:21:20 · 2485 阅读 · 0 评论 -
【解决】scala运行异常Could not locate executable null\bin\winutils.exe in the Hadoop binaries
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.出现这个问题的原因是我们在windows上模拟开发环境,但并没有真正的搭建hadoop和spark解决办法:当然也并不需要我们真的去搭建hadoop下载这个winutils:链接:https://...原创 2019-04-30 08:21:06 · 21250 阅读 · 7 评论