![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
文章平均质量分 92
Hadoop
Redamancy_06
这个作者很懒,什么都没留下…
展开
-
大数据项目之电商数仓、数据仓库概念、项目需求及架构设计
比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。数据仓库,并不是数据的最终目的地,而是为数据最终的目的地做好准备。这些准备包括对数据的:备份、清洗、聚合、统计等。(2)CDH:国内使用最多的版本,但CM不开源,今年开始收费,一个节点1万美金/年。2、框架版本如何选型(Apache、CDH、HDP)原创 2022-10-22 08:00:00 · 6025 阅读 · 86 评论 -
Hadoop中的Yarn的Tool接口案例、Yarn 案例实操(四)
注意此时提交的3个参数,第一个用于生成特定的Tool,第二个和第三个为输入输出目录。注:以上操作全部做完过后,快照回去或者手动将配置文件修改成之前的状态,因为本身资源就不够,分成了这么多,不方便以后测试。自己写的程序也可以动态修改参数。编写Yarn的Tool接口。期望可以动态传参,结果报错,误认为是第一个输入参数。改名为YarnDemo,然后进行上传到Linux上。点击reload from Disk进行刷新。将jar包拖拽到XShell里面。添加依赖后记得刷新一下。原创 2022-10-18 08:00:00 · 958 阅读 · 28 评论 -
Hadoop中的公平调度器案例、Yarn 案例实操(三)
创建两个队列,分别是test和summer(以用户所属组命名)。期望实现以下效果:若用户提交任务时指定队列,则任务提交到指定队列运行;若未指定队列,test用户提交的任务到root.group.test队列运行,summer提交的任务到root.group.summer队列运行(注:group为用户所属组)。公平调度器的配置涉及到两个文件,一个是yarn-site.xml,另一个是公平调度器队列分配文件fair-scheduler.xml(文件名可自定义)。原创 2022-10-17 08:00:00 · 321 阅读 · 17 评论 -
Hadoop中的容量调度器多队列提交案例、Yarn 案例实操(二)
容量调度器,支持任务优先级的配置,在资源紧张时,优先级高的任务将优先获取资源。由于我是下载到本地,通过notepad++进行修改的,所以需要上传到linux上,先将linux上的capacity-scheduler.xml删除,然后进行拖拽。需求1:default队列占总内存的40%,最大资源容量占总资源60%,hive队列占总内存的60%,最大资源容量占总资源80%。业务部门1(重要)=》业务部门2(比较重要)=》下单(一般)=》购物车(一般)=》登录注册(次要)11.11 6.18。原创 2022-10-16 08:00:00 · 290 阅读 · 13 评论 -
Hadoop中的Yarn 生产环境核心参数配置案例、Yarn 案例实操(一)
因为在java8只使用java堆里面的内存,而centos7.0以上使用linux系统为java进程预留的5G,实际使用的内存还不超过4g,所以会造成大量的浪费,因此要关闭虚拟内存。然后进行分发一下,如果集群的配置不同,假如hadoop102是i7,hadoop103是i3,则尽量不使用分发,而是一个一个的机器进行配置。服务器3台,每台配置2G内存,2核CPU,4线程。注:调整下列参数之前尽量拍摄Linux快照,否则后续的案例,还需要重写准备集群。这个脚本是之前写的,想看详细的看我之前写的。原创 2022-10-15 08:00:00 · 1302 阅读 · 24 评论 -
HadoopYarn常用命令、yarn application查看任务、yarn logs查看日志、yarn applicationattempt查看尝试运行的任务、查看容器、Yarn生产环境核心参数
yarn queue查看队列、yarn rmadmin更新配置、yarn node查看节点状态、yarn container查看容器、列出所有Application、根据Application状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)、Kill掉Application、查询Application日志、查询Container日原创 2022-10-13 08:00:00 · 7594 阅读 · 27 评论 -
Hadoop中Yarn资源调度器、Yarn工作机制、作业提交全过程、Yarn调度器和调度算法、先进先出调度器(FIFO)、容量调度器(Capacity Scheduler)、公平调度器(Fair Sc
HDFS、YARN、MapReduce三者关系、作业提交过程值YARN、作业提交过程之HDFS & MapReduce、公平调度器(Fair Scheduler)、容器调度器特点、容量调度器资源分配算法、公平调度器特点、公平调度器----缺额、公平调度器队列资源分配方式、FIFO策略、Fair策略、DRF策略、公平调度器资源分配算法、公平调度器资源分配方法、作业提交全过程详解(1)作业提交第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。第2步:C原创 2022-10-12 08:00:00 · 642 阅读 · 11 评论 -
Hadoop中的MapReduce框架原理、数据清洗(ETL)、MapReduce开发总结、常见错误及解决方案
输入数据接口:InputFormat、逻辑处理接口:Mapper、Partitioner分区、Comparable排序、Combiner合并、逻辑处理接口:Reducer、输出数据接口:OutputFormat(1)默认使用的实现类是:TextInputFormat(2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。(3)CombineTextInputFormat可以把多个小文件合并成一个切片处理,提高处理效率。用户根据业务需求实现原创 2022-10-10 08:00:00 · 1228 阅读 · 14 评论 -
Hadoop数据压缩、MR支持的压缩编码、压缩方式选择、压缩位置选择、压缩实操案例、Map输出端采用压缩、Reduce输出端采用压缩、Gzip压缩、Bzip2压缩、Lzo压缩、Snappy压缩
压缩的优点:以减少磁盘IO、减少磁盘存储空间。压缩的缺点:增加CPU开销。(1)运算密集型的Job,少用压缩(2)IO密集型的Job,多用压缩、压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片、压缩可以在MapReduce作用的任意阶段启用、为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器、Snappy是和centos7.5和hadoop3.0结合使用,他是支持压缩的,如果在本地idea里面,他没有这个运行环境,他这个Snappy是不支持的、即使你的Ma原创 2022-10-11 08:00:00 · 811 阅读 · 11 评论 -
Hadoop中的MapReduce框架原理、Join应用、Reduce Join、案例实操、Map Join、采用DistributedCache、案例实操
Map端的主要工作:为来自不同表或文件的key、value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出、Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标志)分开,最后进行合并就ok了、Map Join适用于一张表十分小、一张表很大的场景、在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据原创 2022-10-09 08:00:00 · 685 阅读 · 17 评论 -
Hadoop中的MapReduce框架原理、OutputFormat数据输出,接口实现类、 自定义OutputFormat案例实操
过滤输入的log日志,包含baidu的网站输出到e:/baidu.log,不包含baidu的网站输出到e:/other.log。创建一个类LogRecordWriter继承RecordWriter(a)创建两个文件的输出流:baiduOut、otherOut(b)如果输入数据包含baidu,输出到baiduOut流如果不包含baidu,输出到otherOut流新建一个java文件,命名为LogOutputFormat,当到这一步的时候会报错,需要创建一个class类,创建就行了创建成功。原创 2022-10-07 08:00:00 · 1119 阅读 · 6 评论 -
Hadoop中MapTask&ReduceTask源码解析(非常详细请耐心看完)、MapReduce内核源码解析、MapTask&ReduceTask工作机制、ReduceTask并行度决定机制
Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中原创 2022-10-08 08:00:00 · 822 阅读 · 25 评论 -
Hadoop中的MapReduce框架原理、Combiner 合并案例实操
因为自定义的Combiner和Reducer的代码是一样的,所以可以调用Reducer作为Combiner。增加一个 WordCountCombiner 类继承 Reducer、指定需要使用combiner,以及用哪个类作为combiner的逻辑、因为自定义的Combiner和Reducer的代码是一样的,所以可以调用Reducer作为Combiner、将 WordcountReducer 作为 Combiner 在 WordcountDriver 驱动类中指定、统计过程中对每一个 MapTask 的输出进原创 2022-10-06 09:24:53 · 958 阅读 · 6 评论 -
Hadoop中的MapReduce框架原理、WritableComparable排序案例实操(区内排序)、Combiner合并、自定义 Combiner 实现步骤
Combiner是MR程序中Mapper和Reducer之外的一种组件、Combiner组件的父类就是Reducer、Combiner和Reducer的区别在于运行的位置,Combiner是在每一个MapTask所在的节点运行,Reducer是接收全局所有Mapper的输出结果、Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络传输量、Combiner能够应用的前提是不能影响最终的业务逻辑,而且,Combiner的输出kv应该跟Reducer的输入kv类型要对应起来、自定义一个原创 2022-10-05 08:00:00 · 365 阅读 · 26 评论 -
Hadoop中的MapReduce框架原理、WritableComparable排序、排序分类、WritableComparable排序案例实操(全排序)、(二次排序)
二次排序、在自定义排序过程中,如果compareTo中的判断条件为两个即为二次排序、辅助排序:(GroupingComparator分组) 在Reduce端对key进行分组。应用于:在接收的key为bean对象时,想让一个或几个字段相同(全部字段比较不相同)的key进入到同一个reduce方法时,可以采用分组排序、全排序最终输出结果只有一个文件,且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在处理大型文件时效率极低,因为一台机器处理所有文件,完全丧失了MapReduce所提供的并行架构、原创 2022-10-04 18:02:18 · 1296 阅读 · 22 评论 -
Hadoop中的MapReduce框架原理、自定义Partitioner步骤、在Job驱动中,设置自定义Partitioner、Partition 分区案例
自定义类继承Partitioner,重写getPartition()方法、自定义Partition后,要根据自定义Partitioner的逻辑设置相应数量的ReduceTask、1)如果ReduceTask的数量> getPartition的结果数,则会多产生几个空的输出文件part-r-000xx、2)如果1原创 2022-10-03 22:50:00 · 1347 阅读 · 16 评论 -
Hadoop中的MapReduce框架原理、MapReduce工作流程、Shuffle机制、Partition分区、Partitioner分区调试
Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解、Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率,原则上说,缓冲区越大,磁盘io的次数越少,执行速度就越快、缓冲区的大小可以通过参数调整,参数:mapreduce.task.io.sort.mb默认100M、Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle又称为混洗、默认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区、MapT原创 2022-08-28 08:00:00 · 452 阅读 · 46 评论 -
Hadoop中的FileInputFormat切片机制、FileInputFormat切片大小的参数配置、TextInputFormat、CombineTextInputFormat切片机制
源码中计算切片大小的公式、切片大小设置、获取切片信息API、FileInputFormat常见的接口实现类包括:`TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputFormat和自定义InputFormat等、虚拟存储切片最大值设置、虚拟存储过程、CombineTextInputFormat案例实操、剩余的大小为4.02M,如果按照4M逻辑划分,就会出现0.02M的小的虚拟存储文件,所以将剩余的4.02M文件切分原创 2022-08-27 08:00:00 · 999 阅读 · 26 评论 -
Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结,那些可以证明你看过切片的源码
splitSize他的值取决于块大小,minSize,maxSize,但是块大小是不能改变的,因为他是实实在在存在物理地址的数据,因此块是不能改变的,但是minSize,和maxSize是可以改变的,可以通过改变这两个值来改变切片大小、如果文件大小除以切片大小大于1.1则切成两片,如果小于1.1则按一片来处理、因为minSize为1,maxSize为long 的最大值,blockSize是32,所以切片的大小与minSize和maxSize有关,可以通过调整这两个的值来改变切片的大小、isSplitable原创 2022-08-26 08:00:00 · 1048 阅读 · 40 评论 -
Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制
如果是集群模式,还有jar包,面试官问这类问题是时候问你看过源码吗,回答是:提交三样东西,一个是xml,一个jar包,一个切片信息、job.xml的内容是job运行所需要的参数设置默认值、state的值为RUNNING,说明job开始运行了、如果是本地模式则不会提交jar包,如果是集群模式,则会提交jar包、数据块:Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算原创 2022-08-25 08:00:00 · 863 阅读 · 34 评论 -
Hadoop序列化、概述、自定义bean对象实现序列化接口(Writable)、序列化案例实操、编写流量统计的Bean对象、编写Mapper类、编写Reducer类、编写Driver驱动类
什么是序列化、为什么要序列化、为什么不用Java的序列化、Hadoop序列化特点:1)紧凑 :高效使用存储空间。2)快速:读写数据的额外开销小。3)互操作:支持多语言的交互、在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。1)必须实现Writable接口2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造3)重写序列化方法4)重写反序列化方法`5)注意反序列化的顺序和序列化的原创 2022-08-24 08:00:00 · 518 阅读 · 49 评论 -
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
优点:易于编程、良好的扩展性、高容错性、适合PB级以上海量数据的离线处理、缺点:不擅长实时计算、不擅长流式计算、不擅长DAG(有向无环图)计算、MapReduce核心功能是将`用户编写的业务逻辑代码`和`自带默认组件`整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。(1)分布式的运算程序往往需要分成至少2个阶段。(2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。(3)第原创 2022-08-23 08:00:00 · 841 阅读 · 32 评论 -
Hadoop中的DataNode、工作机制、数据完整性、掉线时限参数设置
思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。(4)常见的校验算法crc(32),md5(128),sha1(160)用这个网站检验CRC循环冗余校验。...原创 2022-08-22 08:00:00 · 598 阅读 · 17 评论 -
Hadoop中NameNode和SecondaryNameNode、NN和2NN工作机制、Fsimage和Edits解析、oiv查看Fsimage、oev查看Edits、CheckPoint时间设置
查看oiv和oev命令、sz命令,从虚拟机上下载到windows上、通常情况下,SecondaryNameNode每隔一小时执行一次、一分钟检查一次操作次数,当操作次数达到1百万时,SecondaryNameNode执行一次、第一阶段:NameNode启动、第二阶段:Secondary NameNode工作、hdfs oiv -p 文件类型 -i镜像文件 -o 转换后文件输出路径、可以看出,Fsimage中没有记录块所对应DataNode,为什么?在集群启动后,要求DataNode上报数据块信息,并间隔一段原创 2022-08-21 08:00:00 · 382 阅读 · 14 评论 -
Hadoop中HDFS的读写流程(面试重点)、为什么搜不到BlockPlacementPolicyDefault、网络拓扑-节点距离计算、机架感知(副本存储节点选择)
(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。(2)NameNode返回是否可以上传。(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。(4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。(5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。(原创 2022-08-20 07:30:00 · 196 阅读 · 22 评论 -
Hadoop中HDFS的API操作、HDFS文件上传(测试参数优先级)、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和目录、文件详情查看、文件和文件夹判断
参数优先级排序:(1)客户端代码中设置的值 >(2)在项目资源目录下的用户自定义配置文件(如在resources下创建的hdfs-site.xml,可以看上面的过程) >(3)服务器的自定义配置(hdfs-site.xml) >(4)服务器的默认配置(hdfs-default.xml)、CRC文件是一个校验文件,保证文件传输完整、对文件名称的修改、文件的更名和移动、目录更名、删除文件、删除空目录、删除非空目录、如果执行上面代码,下载不了文件,有可能是你电脑的微软支持的运行库少,需要安装一下微软运行库。...原创 2022-08-17 07:15:00 · 2448 阅读 · 7 评论 -
Hadoop中HDFS的API操作、客户端环境准备、配置HADOOP_HOME环境变量
客户端去操作HDFS时,是有一个用户身份的。默认情况下,HDFS客户端API会从采用Windows默认用户访问HDFS,会报权限异常错误。所以在访问HDFS时,一定要配置用户。org.apache.hadoop.security.AccessControlException: Permission denied: user=73631, access=WRITE, inode="/xiyou":summer:supergroup:drwxr-xr-x.........原创 2022-08-15 19:42:57 · 2922 阅读 · 18 评论 -
Hadoop中HDFS的Shell操作(开发重点)、启动Hadoop集群、基本语法、常用命令实操、命令大全、-help、-mkdir、-moveFromLocal、-copyFromLocal
-help:-mkdir:-moveFromLocal:-copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去、-put:等同于copyFromLocal,生产环境更习惯用put、-appendToFile:追加一个文件到已经存在的文件末尾、-copyToLocal:从HDFS拷贝到本地、-get:等同于copyToLocal,-ls: -cat:-chgrp、-chmod、-chown:-mkdir:-cp:-mv:-tail:-rm:-rm -r:-du:-setrep:......原创 2022-08-10 23:02:53 · 1636 阅读 · 42 评论 -
Hadoop(HDFS)概述、HDFS产生背景、HDFS定义、HDFS优缺点、HDFS组成架构、HDFS文件块大小(面试重点)
高容错性,数据自动保存多个副本。它通过增加副本的形式,提高容错性、适合处理大数据,数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;文件规模:能够处理百万规模以上的文件数量,数量相当之大、可构建在廉价机器上,通过多副本机制,提高可靠性、不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。 无法高效的对大量小文件进行存储。存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的;小文件存储的寻址时间会超过读取时间,它违反原创 2022-08-10 16:43:24 · 402 阅读 · 18 评论 -
Hadoop常见错误及解决方案、Permission denied: user=dr.who, access=WRITE, inode=“/“:summer:supergroup:drwxr-xr-x
配置HDFS网页登录使用的静态用户、主机名称不要起hadoop hadoop000等特殊名称、DataNode和NameNode进程同时只能工作一个、执行命令不生效,粘贴Word中命令时,遇到-和长–没区分开。导致命令失效、jps发现进程已经没有,但是重新启动集群,提示进程已经开启、jps不生效原因:全局变量hadoop java没有生效。解决办法:需要source /etc/profile文件。、8088端口连接不上、防火墙没关闭、或者没有启动YARN...原创 2022-08-08 23:04:02 · 5055 阅读 · 16 评论 -
Hadoop运行模式(五)、编写Hadoop集群常用脚本、Hadoop集群启停脚本、常用端口号说明、集群时间同步、时间服务器配置、其他机器配置
Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver):myhadoop.sh、查看三台服务器Java进程脚本:jpsall、分发/home/atguigu/bin目录,保证自定义脚本在三台机器上都可以使用、如果服务器在公网环境(能连接外网),可以不采用集群时间同步,因为服务器会定期和公网时间进行校准;如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。...原创 2022-08-08 22:19:44 · 1097 阅读 · 12 评论 -
Hadoop运行模式(四)、配置历史服务器、配置日志的聚集、删除HDFS上已经存在的文件、集群启动/停止方式总结、配置mapred-site.xml、配置yarn-site.xml
日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryServer、关闭NodeManager 、ResourceManager和HistoryServer、启动NodeManager 、ResourceManage和HistoryServer、各个模块分开启动/停止(配置ssh是前提)常用、整体启动/停止HDFS、整体启动/停止YARN、各个服务组件逐一启动/停止、分别启动/停止HDFS组件原创 2022-08-08 19:10:45 · 688 阅读 · 4 评论 -
Hadoop运行模式(三)、群起集群、配置workers、启动集群、启动HDFS、拼接、Web端查看HDFS的NameNode、Web端查看YARN的ResourceManager
如果集群是第一次启动`,需要在hadoop102节点格式化NameNode、注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化、在配置了ResourceManager的节点(hadoop103)启动YARN......原创 2022-08-06 22:51:08 · 2243 阅读 · 19 评论 -
Hadoop运行模式(二)、SSH无密登录配置、生成公钥和私钥、集群配置、集群部署规划、默认配置文件、核心配置文件、HDFS配置文件、YARN配置文件、MapReduce配置文件、在集群上分发配置好的
ssh文件夹下(~/.ssh)的文件功能解释、ssh连接时出现Host key verification failed的解决方法、免密登录原理、将公钥拷贝到要免密登录的目标机器上、NameNode和SecondaryNameNode不要安装在同一台服务器、ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上、Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值、.原创 2022-08-06 18:10:21 · 1485 阅读 · 12 评论 -
Hadoop运行模式(一)、本地运行模式(官方WordCount)、完全分布式运行模式(开发重点)、scp安全拷贝、rsync 远程同步工具、xsync集群分发脚本、同步环境变量配置(root所有着)
完全分布式运行模式1)准备3台客户机(关闭防火墙、静态IP、主机名称)2)安装JDK3)配置环境变量4)安装Hadoop5)配置环境变量6)配置集群7)单点启动8)配置ssh9)群起并测试集群、scp(secure copy)安全拷贝、望脚本在任何路径都能使用(脚本放在声明了全局环境变量的路径)、修改脚本xsync具有执行权限、注意:如果用了sudo,那么xsync一定要给它的路径补全、创建在hadoop-3.1.3文件下面创建一个testinput文件夹、在testinput文件下创建一个word.txt原创 2022-08-03 18:20:46 · 823 阅读 · 26 评论 -
Hadoop运行环境搭建(开发重点四)在hadoop102安装hadoop、配置hadoop环境变量、测试Hadoop是否安装成功、hadoop重要目录
为什么只在hadoop102上安装hadoop,因为在hadoop102中安装后将hadoop拷贝到hadoop103和hadoop104中、解压hadoop到/opt/module目录下、配置好后需要source一下,重新加载一下内容、在Linux系统下的opt目录中查看软件包是否导入成功、用Xftp传输工具将hadoop导入到opt目录下面的software文件夹下面、系统启动的时候就会加载/etc/profile.d这里面的文件(1)bin目录:存放对Hadoop相关服务(hdfs,yarn,mapr原创 2022-08-02 03:30:00 · 1721 阅读 · 20 评论 -
Hadoop运行环境搭建(开发重点三)、在hadoop102安装JDK、配置JDK环境变量、测试JDK是否安装成功
为什么只在hadoop102上安装JDK,因为在hadoop102中安装后将JDK拷贝到hadoop103和hadoop104中,同样后面安装Hadoop的时候也是这样的操作、解压JDK到/opt/module目录下、配置好后需要source一下,重新加载一下内容、在Linux系统下的opt目录中查看软件包是否导入成功、用Xftp传输工具将JDK导入到opt目录下面的software文件夹下面、系统启动的时候就会加载/etc/profile.d这里面的文件.........原创 2022-08-01 22:33:30 · 1457 阅读 · 12 评论 -
Hadoop运行环境搭建(开发重点二)克隆虚拟机、利用模板机hadoop100,克隆三台虚拟机:hadoop102 hadoop103 hadoop104、修改克隆机IP和主机名称、网络配置
在XShell和Xftp连接hadoop102、hadoop103和hadoop104、配置Linux克隆机主机名称映射hosts文件,打开/etc/hosts、如何将hadoop104从磁盘删除、如何再将hadoop100添加回来、如果不小心将虚拟机hadoop100移除了、为什么不从hadoop101开始,因为一开始hadoop101留给了单台服务器操作使用,而用102,103,104搭建的是完全分布式,真正的生产集群。后面可以用101进行源码的编译...原创 2022-08-01 20:29:02 · 2329 阅读 · 13 评论 -
Hadoop运行环境搭建(开发重点一)、模板虚拟机环境准备、卸载虚拟机自带的JDK、安装epel-release、配置summer用户具有root权限,方便后期加sudo执行root权限的命令
安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G、hadoop100虚拟机配置要求如下(本文Linux系统全部以CentOS-7-x86_64-DVD-2009为例)、使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况、注意:如果Linux安装的是最小系统版,还需要安装如下工具;如果安装的是Linux桌面标准版,不需要执行如下操作、创建summer用户,并修改summer用户的密码、在/opt目录下创建文件夹,并修改所属主和所属原创 2022-08-01 17:16:45 · 1326 阅读 · 24 评论 -
远程终端工具Xshell、Xftp传输工具、VMware 、CentOS7的下载、安装和使用教程(完整版)
通常在工作过程中,公司中使用的真实服务器或者是云服务器,都不允许除运维人员之外的员工直接接触,因此就需要通过远程登录的方式来操作。所以,远程登录工具就是必不可缺的,目前,比较主流的有Xshell,SecureCRT等,同学们可以根据自己的习惯自行选择,以下以Xshell7为例。...原创 2022-07-30 22:38:11 · 1473 阅读 · 0 评论