![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hdfs
20boy发愤图强想当功城狮
这个作者很懒,什么都没留下…
展开
-
hadoop伪分布是详细部署
hadoop集群 单机版配置 1.配置准备一台虚拟据(centos.7系统) 2.相关文件安装包(注:可以去清华大学开源软件里找到镜像文件并下载) 3.准备xftp与xshell 用于导入文件和编写命令软件。我调整了已经发表的hadoo的分布式文档和现在遇到的一些问题原因,简化了配置文件等。关闭防火墙 $ | sudo systemctl stop firewalld 临时关闭防火墙 $ | sudo systemctl disable firewalld 开机时禁止自动开启防火墙 $ |原创 2020-09-30 17:50:02 · 352 阅读 · 0 评论 -
大数据hadoop配置 HIVE配置(三)
大数据hadoop配置 HIVE配置(三)准备mysql的数据库与驱动包在hadoop的基础上搭建(单机.伪分布式.分布式均可)什么是hiveHIVE简介hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将...原创 2020-03-25 12:35:26 · 603 阅读 · 0 评论 -
大数据配置hadoop 全分布式(二)
大数据hadoop配置(二)搭建Hadoop的全分布模式准备3台虚拟机机器:master,slave1,slave2每台机器的准备工作:安装JDK、关闭防火墙、设置主机名…关闭防火墙sudo systemectl stop firewalld 临时关闭sudo systemectl disable firewalld 禁止防火墙自启reboot 重启虚拟机sudo system...原创 2020-03-24 11:13:48 · 121 阅读 · 0 评论 -
大数据配置hadoop HA (一)
大数据配置hadoop(一)搭建Hadoop的高可用模式准备3台虚拟机:master,slave1,slave2了解什么是高可用什么的高可用HA(High Available), 高可用,是保证业务连续性的有效解决方案, 通常通过设置备用节点的方式实现;一般分为执行业务的称为活动节点(Active),和作为活动节点的一个备份的备用节点(Standby), 当活动节点出现问题, 导致...原创 2020-03-23 10:38:49 · 259 阅读 · 0 评论 -
hadoop运行任务时一直卡在:INFO mapreduce.Job: Running job
hadoop运行任务时一直卡在:INFO mapreduce.Job: Running job1.这是我hadoop求pi 卡死问题,因为yarn的运行内存不足导致问题所在。解决方法:在yarn-site.xml中加了:<property> <name>yarn.nodemanager.resource.memory-mb</name> ...原创 2020-03-23 09:39:56 · 1736 阅读 · 0 评论 -
Ubantu18.04 部署Hive
Ubantu18.04 部署Hive一.什么是HiveHive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapR...原创 2019-12-11 19:16:19 · 182 阅读 · 0 评论 -
Hadoop 实验:分布式缓存
Hadoop 实验:分布式缓存一.概述假定现在有100G的大表和1M的小表,如果是储存在一个盘里,处理和运行就会很慢,假定把100G分别分到10个map,这样1个map就是总量的1/10,加快了处理。用小表中单词在大表中出现次数,也即所谓的“扫描大表,加载小表”。也即分布时缓存。如图:由于这次实验没有100G这么大的表也没有1m的小表只能自己设置一个小表和大表。整个实验步骤为:1....原创 2019-11-27 17:21:59 · 295 阅读 · 0 评论 -
Hadoop 实验:Join 操作
Hadoop 实验:Join 操作一. 实验背景:1.概述我们这次学习是在hadoop中使用MapRedce进行Join的操作时同时耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于join的操作也同样具备一定的特殊性。2. 原理使用 MapReduce 实现 Join 操作有多种实现方式:在 Reduce 端连接为最为常见的模式:Map 端的主要工作:为来自不同表(文...原创 2019-11-27 10:42:49 · 219 阅读 · 1 评论 -
Hadoop 实验:二次排序
一.实验原理MR默认会对键进行排序,然后有的时候我们也有对值进行排序的需要,如果有内存溢出的问题,就用二次排序来进行对值的排序MR计算过程中,而不是单独来做。二次排序就是首先按照第一次字段排序,然后对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序结果。二.实验需要本实验所需外部 jar 文件都可以在实验集群的/home/hadoop/lib.zip 文件中找到,请自行下载。1....原创 2019-11-26 20:35:45 · 345 阅读 · 0 评论 -
Hadoop 实验:计数器
1.MapReduce 计数器是什么?是用于记录job的执行进度和状态的。可以认为是笔记本,记录这数据变化。2.MapReduce计数器能做什么?计数器给我们提供一个数据窗口,展示各种细节数据。对MapRed性能优化的评价都计数器表现出来。计数器是一种收集作业统计信息的有效手段。用于统计质量控制或应用级统计。还可以判断系统出现的问题错误。计数器好比一个日记本,你每天记录一点,有一天返回来看...原创 2019-11-26 16:40:36 · 323 阅读 · 4 评论 -
读写 HDFS 文件
在hadoop hdfs上传下载文件什么是hdfsHDFS(Hadoop Distributed File System)为大数据平台其它所有组件提供了基本的存 储功能。它具有高容错、高可靠、可扩展、高吞吐率等特征,为大数据存储和处理提供 了强大的底层存储架构。 HDFS 是一个主/从(master/slave)体系结构,从最终用户的角度来看,它就像传统 的文件系统,可通过目录路径对文件执行 ...原创 2019-11-23 16:29:45 · 213 阅读 · 0 评论