hadoop
文章平均质量分 69
qq_41665356
这个作者很懒,什么都没留下…
展开
-
hadoop_介绍
1. 概念1) NameNodeNameNode是HDFS的Master架构。主要负责:1.HDFS文件系统的管理工作,具体包括名称空间管理,文件Block管理。2.接受客户端请求3.维护文件的元信息(fsimage)和操作日志(edits) 2) DataNodeDataNode是负责存储数据的组件,一个block数据块会在多个DataNode中冗余备份,而一个dataNode对于一个块最多只包...原创 2018-05-18 09:24:22 · 174 阅读 · 0 评论 -
hadoop_mapreduce_shuffle洗牌
shuffle是整个mapreduce的核心。下面这篇文章写得很详细,把内容复制过来了:https://blog.csdn.net/clerk0324/article/details/52461135 其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上,这个过程就称作为Shuffle。 ...原创 2018-05-19 14:25:25 · 1030 阅读 · 0 评论 -
hadoop_mapreduce_Map中获取文件名
Mapreduce的map输入的是文件的每一行值,即V1为文件的行。hadoop jar xxx.jar /input /output当input为一个文件名时,v1为文件的行;当input为一个目录时,v1为此目录下各文件的行。 因此在某些情况下在map中获取v1对应的文件名就很有必要了,获取方法://路径:/myindexdata/data01.txtString path = ((FileS...原创 2018-05-19 14:25:19 · 1352 阅读 · 0 评论 -
hadoop_mapreduce_分区与合并
1. 分区(Partition)l 定义一个类派生自Partitioner参数为K2,V2,实现getPartition返回分区。package com.harvetech.partitoner;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.mapreduce.Partitioner;import com.har...原创 2018-05-19 14:25:13 · 417 阅读 · 0 评论 -
hadoop_mapreduce_排序
在执行job时会进行排序,实则是对k2进行排序自定义类在Java的排序需要实现Comparable接口。自定义类在Mapreduce的排序需要实现WritableComparable。它是writable类的子类,即要可序列化又要可被排序。如:public class Employee implements WritableComparable<Employee>{public int...原创 2018-05-19 14:25:06 · 103 阅读 · 0 评论 -
hadoop_mapreduce_序列化
l java的序列化需要实现Serializable接口l 所有hadoop的数据类型都实现了hadoop的序列化:java数据类型Hadoop数据类型intIntWritablelongLongWritableStringTextnullNullWritable l 如果一个类实现了Hadoop的序列化接口(Writable),这个类对象可以作为Map和Reduce的输入和输出(key valu...原创 2018-05-19 14:24:59 · 172 阅读 · 0 评论 -
hadoop_mapreduce_wordcount例子
1. Wordcount例子1) 数据流: 2) MapMap需要派生自map,四个参数为k1,v1,k2,v2的数据类型 package com.harvetech.service;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import ...原创 2018-05-19 14:24:51 · 254 阅读 · 0 评论 -
hadoop_代码实现hdfs操作(整合springMVC)
上面的例子是使用main方法测试的,如果整合到springMVC,通过页面发ajax请求执行呢?主要还是pom.xml,很容易就因为包冲突报错。经过删减,只留下了相关的jar包,中途又出现过一次访问不了页面,后来又好了,很奇怪的现象。到写文档为止是可以运行的,pom.xml内容如下:<project xmlns="http://maven.apache.org/POM/4.0.0" xmln...原创 2018-05-18 09:25:26 · 1714 阅读 · 0 评论 -
hadoop_代码实现hdfs操作
使用hadoop命令或者页面查看现有HDFS中目录结构:/ /usr /local /testFile.txt /testFileCopy.txt 1. 前期准备创建一个mean项目,引入hadoop包: <dependency> <groupId>org.apache.hadoop</groupId...原创 2018-05-18 09:25:19 · 1439 阅读 · 0 评论 -
hadoop_高级功能
1. 回收站默认:禁用删除数据,hadoop dfs -rmr /output日志:17/10/25 10:27:53 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes. Deleted /output回收站的本质...原创 2018-05-18 09:25:05 · 580 阅读 · 0 评论 -
hadoop_命令
1. 创建目录hadoop dfs -mkdir /usr-p先创建父目录 2. 查看文件列表hadoop fs -ls /-ls -R sj 查看子目录-lsr 查看子目录 3. 将系统文件复制到hdfscopyFromLocal hadoop dfs -copyFromLocal /opt/hadoop/temp/testFile.txt /usr/local/testFile.txt pu...原创 2018-05-18 09:24:58 · 262 阅读 · 0 评论 -
hadoop_运行demo
在/opt/hadoop/hadoop-2.6.0/share/hadoop/mapreduce目录下有demo的jar包:hadoop-mapreduce-examples-2.6.0.jar查看此jar包中都有哪些例子: hadoop jar hadoop-mapreduce-examples-2.6.0.jar其中一个就是wordcount,再看一下它的用法: hadoop jar hado...原创 2018-05-18 09:24:48 · 2301 阅读 · 1 评论 -
hadoop_安装_伪集群
1. 装一台新虚拟机1) 机器准备安装centos7ip:192.168.75.108;密码:root123; 2) 修改hostsVi /etc/hosts192.168.75.108 centos8 3) 关闭访火墙#查看firewallsystemctl status firewalld.service#启动firewallsystemctl start firewalld.service#...原创 2018-05-18 09:24:42 · 118 阅读 · 0 评论 -
hadoop_安装
以2.6.0为例子介绍安装过程:下载地址:http://hadoop.apache.org/releases.htmlhttp://mirror.bit.edu.cn/apache/hadoop/common/1) 解压安装包创建目录/opt/hadoop,将包放进去: 解压:tar -zxvf hadoop-2.6.0.tar.gz 2) 修改环境变量vi /etc/profileexport...原创 2018-05-18 09:24:33 · 149 阅读 · 0 评论 -
hadoop_安装_机器环境
1. 机器准备安装三个centos7的虚拟机,ip地址如下:192.168.75.105192.168.75.106192.168.75.107密码:root123注:使用最小安装后,无法使用ifconfig命令,需安装一下相应包:yum install net-tools2. 修改hosts 编辑/etc/hosts映射文件,设置IP地址与机器名的映射,设置信息如下:vi /etc/hosts1...原创 2018-05-18 09:24:27 · 232 阅读 · 0 评论 -
hadoop_mapreduce_MRUtil
1. 导入jar包MRUnit的jar包: 如果是直接导入的话,需要导入mrunit-1.1.0-hadoop2.jar,及上面压缩文件中lib下的所有jar包: 除了mockito-core-1.9.5.jar,因为会有冲突。如果是maven项目,导入: 2. 测试maper添加一个新类WordCountUnitTest:package com.harvetech.wordcount;impor...原创 2018-05-19 14:25:35 · 299 阅读 · 0 评论