自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 学习hive笔记

hive(简介)hive使用sql来完成大数据统计分析的工具hive是Facebook公司开源的工具,用来解决海量结构化日志的统计问题,是构建在hadoop之上的数据仓库。HDFS:hive的数据是存在HDFS(distributed storge),元数据(metadata)存在对应底层关系模型数据库,一般是mysqlMR(计算引擎):hive的作业(SQL)是通过hive的框架翻译成MR作业。速度很慢。这里的引擎也可以是Tez,Spark,不管底层用的是什么引擎,对于用户来说是不感知

2022-04-05 14:51:17 411

原创 配置yarn方法

1.etc/hadoop/mapred-site.xml:<configuration> <property> <name>mapreduce.framework.name</name> --框架配置 <value>yarn</value> </property> <property> <name>mapreduce

2022-04-03 09:35:21 1903

原创 MapReduce2

Combiner(预聚合):介于map和reduce之间的reduce操作,但是是运行在MapTask作用:减少数据的网络传输,是一个非常重要的调化优点,减少了一半的网络传输。1.hadoop解决数据倾斜的方法。什么是数据倾斜:比如:一个文件有a,b,c三个属性的字段,a的数据量1亿个,而b,c仅仅只有一个,经过wordcount,map1:99%,map2:100%,map:100%解决方法:第一种:combiner:减少数据的网络传输。但是做平均的时候不合适用combin

2022-03-30 14:05:35 1893

原创 MapReduce的wordcount代码

一.在IDEA下编写java程序实现hadoop的wordcount操作。Mapper代码:package MapReduce_wc;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOExce

2022-03-30 12:34:48 2451

原创 MapReduce(图解)

1.input读文件2.split(分片)例如,blocksize(块) 128MB3.mapword->(word,1) key-->values 键值对4.shuffie(洗牌)默认按照kkey的hash值进行分发,相同的key肯定要分发到同一个reduce任务上去,做到最后的汇总操作。5.reduce规约汇总,这里对value做加法。6.result输出成文件java实现:1.Map:public static clas...

2022-03-27 18:39:53 2290

原创 Yarn的相关知识

一. Yarn1.yarn的作用:资源的调度分配。2.主要的模块:2.1.ResoureManager(RM)yarn是资源控制框架的中心模块,负责集群中所有的资源的统一管理与分配。2.2.调度器(ResourceScheduler)根据各个应用程序的资源需求,进行分配。2.3.应用管理器(Applications Maneger)负责监控或跟踪AM的执行状态。2.4.NodeManager(NM)是ResourceManager每台机器上的代理,负责容器的管理,并监

2022-03-26 19:42:55 4321

原创 HDFS读写流程

HDFS的读流程HDFS client 调用FileSystem.open(filePath),与NN进行【RPC】通信,返回文件的block列表,返回FSdataInputStream对象,HSFS client调用FileSystem.read方法,与第一块最近的DN进行读取,读取完成后,检查是否返回完成,如果还没完成,就从第二个节点去读取,以此类推,当block列表全部读取完成了,HDFS的读流程就完成了。2.HDFS的写流程HDFS client调用 FIieSystem.cre.

2022-03-23 17:37:49 220

原创 【Linux环境下安装配置JDK和HADOOP】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言工欲善其事,必先利其器,对于刚学数仓的人来说,安装配置hadoop是比较困难的,今天给大家来一期关于在Linux的环境下安装hadoop和jdk。提示:以下是本篇文章正文内容,下面案例可供参考一、什么是hadoop?hadoop是由Apche基金会所开发的分布...

2022-03-22 11:09:32 3696

原创 HDFS的相关使用

它的一些操作命令:hdfs --help --获取详细的帮助信息 dfsadmin --跑一个admin的客户端 fsck --用于检查hdfs的一些文件和目录的健康状况 hdfs namenode -format --格式化namenode hafs dfsadmin -safemode get --hdfs的安全模式(默认是off) hdfs dfs -rm -r --删除文件注:...

2022-03-20 17:54:07 470

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除