Hadoop
依旧ฅ=ฅ
想去的地方很远 想买的东西很贵 想守护的东西很美好 所以选择努力
展开
-
【HDFS】java api操作hdfs(kerberos认证)
https://blog.csdn.net/lhxsir/article/details/80363278原创 2021-08-17 10:58:40 · 612 阅读 · 0 评论 -
【hadoop】File方法createTmpFile创建临时文件、下载hdfs文件到本地
示例为从HDFS下载文件到本地临时文件启动springboot项目客户端访问 传入需要的参数返回了临时文件的路径,到指定路径查看End原创 2021-01-19 13:07:06 · 5614 阅读 · 2 评论 -
【yarn】job日志查看
yarn-site.xml添加属性<property> <name>yarn.log-aggregation-enable</name> <value>true</value></property><!-- resourceManager 保存最大的任务完成个数 --><property> <name>yarn.resourcemanager.max-co原创 2020-11-05 17:18:01 · 6341 阅读 · 0 评论 -
yarn简答题
1、什么是Yarn 通用资源管理系统和调度平台2、Yarn特点:支持多计算框架 资源利用率高,运行成本低,数据共享。3、Yarn的意义:降低了企业硬件的成本(多个集群变成一个集群),减少了资源的了浪费,运营成本低。4、Yarn基本组成 ResourceManager :一个集群资源调度的管理者 NodeM...原创 2020-04-10 22:15:04 · 3869 阅读 · 0 评论 -
Apache Hadoop YARN
一、yarn介绍yarn并不清楚用户提交的程序的运行机制 yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源) yarn中的主管角色叫ResourceManager yarn中具体提供运算资源的角色叫NodeManager yarn与运行的用户程序完全解耦,意味着yarn上可以运行各种类型的分布式运算程序,比如mapreduce、storm,spark,t...原创 2020-04-03 21:25:24 · 3658 阅读 · 0 评论 -
MapReduce的分区与ReduceTask的数量
在MapReduce中,通过指定分区,会将同一个分区的数据发送到同一个reduce中,例如为了数据的统计,可以把一批类似的数据发送到同一个reduce当中去,在同一个reduce中统计相同类型的数据,就可以实现类似数据的分区,统计等直观的说就是相同类型的数据,送到一起去处理,在reduce当中默认分区只有1个。MapReduce当中的分区类图需求:将以下数据进行分开处理其中第...原创 2019-11-20 21:04:23 · 3918 阅读 · 0 评论 -
reduce端join与map端join算法实现
一、reduce端join算法实现实现机制:通过将关联的条件作为map输出的key,将两表满足join条件的数据并携带数据所来源的文件信息,发往同一个reduce task,在reduce中进行数据的串联缺点:这种方式中,join的操作是在reduce阶段完成,reduce端的处理压力太大,map节点的运算负载则很低,资源利用率不高,且在reduce阶段极易产生数据倾斜需求:...原创 2019-11-20 13:53:56 · 3756 阅读 · 0 评论 -
shuffle阶段数据的压缩机制
在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输一、MapReduce的执行流程inputmappershufflepartitioner、sort、c...原创 2019-11-20 13:45:56 · 3685 阅读 · 0 评论 -
MapTask和ReduceTask运行机制、MapReduce的 shuffle 过程
一、MapTask运行机制详解以及Map任务的并行度整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一...原创 2019-11-20 13:01:53 · 4952 阅读 · 0 评论 -
排序、序列化及反序列化
序列化、反序列化一、概念序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。Java序列化(java.io.Serializable)当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。二.H...原创 2019-11-20 12:31:09 · 6100 阅读 · 0 评论 -
MapReduce执行流程
MapReduce执行流程---------------------------------------map阶段-------------------------------------------------------第一步:InputFormatInputFormat 在HDFS文件系统中读取要进行计算的数据输出给Split第二步:SplitSplit 将数据进行逻...原创 2019-11-20 09:52:38 · 3690 阅读 · 0 评论 -
MapReduce程序运行模式
本地运行模式mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行 而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上 怎样实现本地运行?写一个程序,不要带集群的配置文件本质是程序的conf中是否有mapreduce.framework.name=local以及yarn.resourcemanager.hostname=local参数本地模式非...原创 2019-11-20 09:26:26 · 3836 阅读 · 0 评论 -
MapReduce
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-11-20 09:06:28 · 3851 阅读 · 0 评论 -
Hadoop汇总
一、介绍Hadoop介绍Hadoop安装、集群搭建二、HDFSHDFS分布式文件存储系统讲解HDFS读写工作流程SecondaryNameNode讲解Hadoop一些常用的命令三、MapReduceMapReduceMapReduce编程初体验MapReduce程序运行模式MapReduce执行流程排序、序列化及反序列化MapTa...原创 2019-11-20 14:07:18 · 3604 阅读 · 0 评论 -
HDFS分布式文件存储系统
一.NameNode1.简介namenode是整个文件系统的管理节点。他维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。文件包括:fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。edits:操作日志文件。fstime:保存最近一次checkpoint的时间。2.NameNode的工作特点N...原创 2019-11-20 08:30:07 · 3973 阅读 · 0 评论 -
Hadoop一些常用的命令
1、Hadoop常用命令hadoop verion //版本hadoop fs //文件系统客户端.hadoop jar hadoop classpath //查看hadoop类路径hadoop checknative //检查压缩库本地安装情况...原创 2019-11-19 21:57:47 · 4024 阅读 · 0 评论 -
自定义InputFormat、自定义OutputFormat
1.自定义inputFormat合并小文件需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案,将多个小文件合并成一个文件 SequenceFile.SequenceFile 里面存储着多个文件。存储的形式为文件名称为 key,文件内容为 value。分析小文件的优化无非以下几种方式:在数据采集的时候...原创 2019-11-19 13:47:46 · 3861 阅读 · 0 评论 -
MapReduce编程初体验
使用MapReduce统计每个单词出现的个数1.pom文件 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloud...原创 2019-11-13 13:38:04 · 3822 阅读 · 0 评论 -
Hadoop介绍
一.hadoop是什么Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。二 .hadoop能干什么hadoop擅长日志分析,facebook就用...原创 2019-11-07 23:29:01 · 4189 阅读 · 0 评论 -
HDFS读写工作流程
一、HDFS数据写入流程1、 client发起文件上传请求,通过RPC与NameNode建立通讯,;NameNode查找是否满足写入要求(该用户是否有写入权限、目标文件是否已存在、集群是否处于安全模式)返回是否可以写入2、 client请求第一个block该传输到哪些DataNode服务器上;3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可...原创 2019-11-07 21:15:26 · 4164 阅读 · 0 评论 -
SecondaryNameNode讲解
简介HA的一个解决方案。但不支持热备。配置即可。执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,替换旧的fsimage.默认在安装在NameNode节点上,但这样...不安全!一、secondarynameNode工作原理使用原因:未使用secondar...原创 2019-11-06 11:04:29 · 6112 阅读 · 1 评论 -
Hadoop安装、集群搭建
目录准备工作1、同步时间2、 关闭selinux3、设置主机名4、配置ip、主机名映射关系5、配置ssh免密登录6、配置防火墙:7、jdk环境安装8、CDH 分布式环境搭建#修改配置文件(均在/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下)#配置Hadoop的环境变量集群启动准备工...原创 2019-10-31 18:29:09 · 3816 阅读 · 0 评论