自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 学习hive笔记

hive(简介) hive使用sql来完成大数据统计分析的工具 hive是Facebook公司开源的工具,用来解决海量结构化日志的统计问题,是构建在hadoop之上的数据仓库。 HDFS:hive的数据是存在HDFS(distributed storge),元数据(metadata)存在对应底层关系模型数据库,一般是mysql MR(计算引擎):hive的作业(SQL)是通过hive的框架翻译成MR作业。速度很慢。 这里的引擎也可以是Tez,Spark,不管底层用的是什么引擎,对于用户来说是不感知

2022-04-05 14:51:17 428

原创 配置yarn方法

1.etc/hadoop/mapred-site.xml: <configuration> <property> <name>mapreduce.framework.name</name> --框架配置 <value>yarn</value> </property> <property> <name>mapreduce

2022-04-03 09:35:21 1914

原创 MapReduce2

Combiner(预聚合):介于map和reduce之间的reduce操作,但是是运行在MapTask 作用:减少数据的网络传输,是一个非常重要的调化优点,减少了一半的网络传输。 1.hadoop解决数据倾斜的方法。 什么是数据倾斜: 比如:一个文件有a,b,c三个属性的字段,a的数据量1亿个,而b,c仅仅只有一个,经过wordcount,map1:99%,map2:100%,map:100% 解决方法: 第一种: combiner:减少数据的网络传输。但是做平均的时候不合适用combin

2022-03-30 14:05:35 1930

原创 MapReduce的wordcount代码

一.在IDEA下编写java程序实现hadoop的wordcount操作。 Mapper代码: package MapReduce_wc; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOExce

2022-03-30 12:34:48 2467

原创 MapReduce(图解)

1.input 读文件 2.split(分片) 例如,blocksize(块) 128MB 3.map word->(word,1) key-->values 键值对 4.shuffie(洗牌) 默认按照kkey的hash值进行分发,相同的key肯定要分发到同一个reduce任务上去,做到最后的汇总操作。 5.reduce 规约汇总,这里对value做加法。 6.result 输出成文件 java实现: 1.Map: public static clas...

2022-03-27 18:39:53 2305

原创 Yarn的相关知识

一. Yarn 1.yarn的作用:资源的调度分配。 2.主要的模块: 2.1.ResoureManager(RM) yarn是资源控制框架的中心模块,负责集群中所有的资源的统一管理与分配。 2.2.调度器(ResourceScheduler) 根据各个应用程序的资源需求,进行分配。 2.3.应用管理器(Applications Maneger) 负责监控或跟踪AM的执行状态。 2.4.NodeManager(NM) 是ResourceManager每台机器上的代理,负责容器的管理,并监

2022-03-26 19:42:55 4342

原创 HDFS读写流程

HDFS的读流程 HDFS client 调用FileSystem.open(filePath),与NN进行【RPC】通信,返回文件的block列表, 返回FSdataInputStream对象,HSFS client调用FileSystem.read方法,与第一块最近的DN进行读取,读取完成后,检查是否返回完成,如果还没完成,就从第二个节点去读取,以此类推,当block列表全部读取完成了,HDFS的读流程就完成了。 2.HDFS的写流程 HDFS client调用 FIieSystem.cre.

2022-03-23 17:37:49 232

原创 【Linux环境下安装配置JDK和HADOOP】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结 前言 工欲善其事,必先利其器,对于刚学数仓的人来说,安装配置hadoop是比较困难的,今天给大家来一期关于在Linux的环境下安装hadoop和jdk。 提示:以下是本篇文章正文内容,下面案例可供参考 一、什么是hadoop? hadoop是由Apche基金会所开发的分布...

2022-03-22 11:09:32 3720

原创 HDFS的相关使用

它的一些操作命令: hdfs --help --获取详细的帮助信息 dfsadmin --跑一个admin的客户端 fsck --用于检查hdfs的一些文件和目录的健康状况 hdfs namenode -format --格式化namenode hafs dfsadmin -safemode get --hdfs的安全模式(默认是off) hdfs dfs -rm -r --删除文件 注:...

2022-03-20 17:54:07 481

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除