Hadoop
文章平均质量分 90
俊杰梓
人的一切痛苦,本质上都是对自己无能的愤怒!
写的不好,请多关照
============
微信:15234940672
展开
-
Hadoop各配置文件详解
1、Hadoop各目录说明文件夹名称作用bin存放对hadoop相关服务(HDFS,YARN)进行操作的脚本sbin存放启动或停止hadoop相关服务的脚本etchadoop的配置文件目录,存放hadoop的配置文件lib存放hadoop的本地库(对数据进行压缩解压缩功能)share存放hadoop的依赖jar包和文档,文档可以被删除掉2、各个配置文件的作用配置文件的名称作用core-site.xml核心配置文件,主要定义原创 2021-10-06 10:41:31 · 11482 阅读 · 0 评论 -
CentOS8.2安装Hadoop3.3.1
1、安装Hadoop之前,环境的配置1、配置免密登录当我们远程登录一个机子的时候,ssh hostname(ip) 会发现需要输入密码,每次输入密码未免太麻烦,就需要我们配置免密,如果不配的话,传输文件的时候输密码会输到怀疑人生。安装SSHyum install -y openssh-clients首先产生公钥和私钥ssh-keygen -t rsa查看产生的公钥和私钥[root@bigdata801 ~]# cd .ssh/[root@bigdata801 .ssh]# lltot原创 2021-10-06 10:11:22 · 613 阅读 · 0 评论 -
彷徨 | Hadoop各配置文件的配置及其作用
目录1 . slaves2 . core-site.xml3 . hdfs-site.xml4 . mapred-site.xml:(注意要将mapred-site.xml.template重命名为 .xml的文件)5.Yarn-Site.xml6 . hadoop-env.sh1 . slaves把所有从节点的主机名写到这儿就可以,这是告诉hadoop进程哪些机器...原创 2018-08-17 17:51:38 · 3728 阅读 · 0 评论 -
彷徨 | 执行start-dfs.sh后,namenode正常启动 , datenode没有启动
解决启动集群后namenode正常显示,datanode却没启动的问题启动Hadoop2.8.3集群后,遇到namenode启动 , 但是datanode进程没启动,查看日志发现如下报错:java.io.IOException: Incompatible clusterIDs in /home/casliyang/hadoop2/hadoop-2.2.0/metadata/data: na...原创 2018-08-17 16:56:21 · 2462 阅读 · 0 评论 -
彷徨 | HDFS客户端API编程基本java操作 | 二
一 : API编程查看文件内容先上传一文件到HDFShadoop fs -put ./zhang /查看文件是否传上去hadoop fs -ls /用命令行客户端查看文件内容用API编程查看文件内容代码 : // 读取HDFS中的文件的内容 @Test public void testReadContent() throws Exception...原创 2018-08-05 17:12:30 · 304 阅读 · 0 评论 -
彷徨 | HDFS初始化创建一个新的集群(将原集群格式化)
学习过程中 , 有时候我们的集群存储空间会满 , 这时候我们可以一个一个删除文件 , 也可以直接格式化集群 , 这样比较方便 , 下面详细介绍个格式化集群的步骤方法:第一步:先将集群关闭第二步:删除datanode因为namenode中存放着文件与数据块列表的对应信息 , 所以datanode一删除,namenode也没用了,所以我们一起删除,直接删除 hdpdata 文件 . ...原创 2018-08-03 16:10:24 · 1155 阅读 · 0 评论 -
彷徨 | HDFS的安全模式
HDFS运行机制、原理深入namenode的安全模式:namenode一旦进入安全模式,就无法再操作hdfs中的文件(上传、删除、改名、下载),只是可以查看目录namenode进入安全模式的原因:namenode机器的资源问题(磁盘空间不足,内存不足) namenode觉得集群中的block丢失率超出>0.01% (namenode是如何知道block丢失了多少?nam...原创 2018-08-03 10:39:46 · 276 阅读 · 0 评论 -
彷徨 | HDFS客户端基本shell操作
# HDFS 的shell练习# hdfs version 查看HDFS版本# hadoop fs -ls / 查看HDFS根目录下的文件和目录# hdfs dfs -ls -R /这条会列出/目录下的左右文件,由于有-R参数,会在文件夹和子文件夹下执行ls操作 , 会递归# hadoop fs -mkdir /test 在根目录创建一个目录test# h...原创 2018-07-28 10:03:15 · 415 阅读 · 0 评论 -
彷徨 | HDFS客户端API编程基本java操作 | 一
1 : 上传本地文件到HDFS @Test public void testUpload() throws Exception { Configuration conf = new Configuration(); //默认值,可以不设置 conf.set("dfs.blocksize", "128m"); // 1.先获取一个访问HDFS的客户端对象 //...原创 2018-07-28 09:03:15 · 314 阅读 · 0 评论 -
彷徨 | Hadoop的详细安装过程
安装HDFS,其实就是准备大量的Linux服务器,安装hadoop软件,然后在不同的机器上启动不同的程序,包括namenode,datanode,客户端。准备4台Linux服务器,1台用于启动namenode,3台用于启动datanode。安装步骤:1:准备4台Linux机器,并做好基础配置IP地址Hostname(一律小写+数字)域名映射/etc/hostsjdk...原创 2018-07-25 09:01:42 · 291 阅读 · 0 评论 -
彷徨 | [Hadoop异常处理] Namenode和Datanode都正常启动,但是web页面不显示
异常namenode和data都正常启动但是web页面却不显示,都为零解决办法一:在hdfs-site.xml配置文件中,加入<property> <name>dfs.namenode.datanode.registration.ip-hostname-check</name> <value>false<...原创 2018-07-24 09:18:19 · 7545 阅读 · 10 评论 -
Hadoop之HDFS设计思想
Hadoop2系列才有的思想,Hadoop1系列设计比较冗余文件系统NameNode1.NameNode是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问;2.副本存放在哪些DataNode上由NameNode来控制,根据全局情况做出块放置决定,读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗...原创 2018-10-10 08:13:55 · 640 阅读 · 0 评论 -
彷徨 | 打印日志文件并将其上传存到HDFS中
在本地打印日志 , 对日志文件进行分析 , 把需要上传的日志文件移动到待上传目录 , 将待上传的日志文件逐个上传到HDFS , 并移动到备份目录 , 定期清理过期备份日志 .1.首先生产日志文件:/** * 生产日志 * @author Administrator * */public class MoreLog { public static void main(Strin...原创 2018-08-21 09:09:38 · 620 阅读 · 0 评论 -
彷徨 | HDFS系统里面文件的词频统计
HDFS系统里面的词频统计统计 , 有俩种方式 , 一种是简单的单机版 , 一种的分布式的MapReduce原理第一种 : 简单的单机模式import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URI;import java....原创 2018-08-21 20:37:01 · 917 阅读 · 0 评论 -
彷徨 | MapReduce各种执行(Linux执行,eclipse执行)与读取和存储(从HDFS读取以及从本地读取)
1 . 读取HDFS中的文件 , 利用Linux平台MapReduce框架执行 , 结果写入 HDFS中 .mappackage hadoop_day05.zhang.firstMR;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Lon...原创 2018-08-22 22:33:42 · 909 阅读 · 0 评论 -
彷徨 | Hadoop之Yarn个人浅谈
分布式资源调度平台 : YarnYARN的服务进程角色ResourceManager(只能在一台机器上 , 负责任务调度的) :1 接收客户端请求2 为整个Yarn集群分配资源NodeManager(可以在很多台机器上运行,负责创建容器运行程序) :1 能够根据客户端提交的任务的请求 , 会在NodeManager上开辟一些计算机资源(CPU , MEMORY) , 以...原创 2018-08-27 14:53:47 · 420 阅读 · 0 评论 -
彷徨 | MapReduce实例七 | Join拼接
以用户订单数据为例 : JoinBeanimport java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;public class JoinBean implements Writable{ pr...原创 2018-08-27 21:43:35 · 331 阅读 · 1 评论 -
彷徨 | Hadoop之HDFS个人浅谈
小白所写 , 写的不好 , 请大神指点目录1 . Hadoop中有三个核心组件 :2 . 大数据的基本概念 : 处理海量数据的核心技术 : 分布式存储的框架:分布式的计算框架:辅助类工具有: 3 . 分布式文件存储系统HDFS 4 . Hadoop集群Shell端操作HDFS的简单API5 . HDFS中角色(NameNode,DataNode,Second...原创 2018-08-25 16:20:04 · 1171 阅读 · 0 评论 -
彷徨 | HDFS读写数据流程图
HDFS读数据流程图HDFS写数据流程图原创 2018-09-01 14:07:43 · 435 阅读 · 0 评论 -
彷徨 | HDFS核心设计思想图
HDFS核心思想原创 2018-09-01 14:49:19 · 451 阅读 · 0 评论 -
彷徨 | MapReduce框架设计思想图
MapReduce框架设计思想图原创 2018-09-01 20:04:15 · 285 阅读 · 0 评论 -
彷徨 | MapReduce实例六 | 求平均值Avg,以电影数据为例
给一组数据求平均值 , 将原始数据的 id 作为 key , 将要求的列作为 value , Map阶段将 key 和 value 提取出来交给 Reduce 处理 , Reduce将数据求和并求出平均值 , 这是一个相对比较简单的MapReduce案例 . 原始数据样本 : {"movie":"1193","rate":"5","timeStamp":"978300760",&原创 2018-08-24 22:26:29 · 931 阅读 · 0 评论 -
彷徨 | MapReduce实例五 | MapReduce求TopN的三种方法 , 以电影数据为例
本文采用三种方式对movie数据进行TopN排序第一种是直接排序,在ReduceTask中进行排序第二种是利用Tree排序,该方式利用小顶堆和集合重复原理的方式 , 每过来一个数据 , 跟堆顶数据进行比较 , 如果比最小的大 , 则 =踢掉换新的 , 否则直接跳过数据 . 以此对数据进行排序 . 第三种是利用MepReduce高级API编程,定义分区器和分组比较器.数据样本:{"m...原创 2018-08-24 20:49:54 · 3467 阅读 · 3 评论 -
彷徨 | MapReduce实例四 | 统计每个单词在每个文件里出现的次数
示例:一个目录下有多个文件,每个文件里有相同的单词,统计每个单词在每个文件里出现的次数即同一个单词在不同文件下的词频统计文件目录如下:各文件内容片断:要求结果如下:及同一个单词在不同文件下的词频统计思路:第一步:我们可以先将单词和文件名作为key,将出现次数作为value,统计每个单词在每个文件里出现的次数例:Mybatis-a.txt 6...原创 2018-08-24 19:47:38 · 3299 阅读 · 0 评论 -
彷徨 | MapReduce实例三 | 求共同好友
原始数据 : A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J代码实现 :CommonFriendsOneimport java.io.File...原创 2018-08-23 22:29:21 · 266 阅读 · 0 评论 -
彷徨 | MapReduce实例一 | 判断线段的共同点个数
判断线段的共同点个数,及求一个点上经过该点的线段的个数,有俩条及俩条以上的线段经过该点,就有共同点数据模型: 分别表示起点和终点1,42,53,42,52,43,42,61,44,75,85,96,117,12a,b6,1010,1511,1612,1813,17方法一:package hadoop_day06.zhang.line;im...原创 2018-08-23 20:05:49 · 275 阅读 · 0 评论 -
彷徨 | Hadoop之MapReduce个人浅谈
MapReduce是分布式运算编程框架,Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上为什么要MAPREDUCE(1)海量数据在单机上处理因为硬件资源限制,无法胜任(2)而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度(3)引入mapreduce框架后,开发人员可以将绝大部...原创 2018-08-27 11:30:10 · 357 阅读 · 0 评论