@xiaoluo-CSDN博客

原创学习hive笔记

hive（简介） hive使用sql来完成大数据统计分析的工具 hive是Facebook公司开源的工具，用来解决海量结构化日志的统计问题，是构建在hadoop之上的数据仓库。 HDFS：hive的数据是存在HDFS（distributed storge），元数据（metadata）存在对应底层关系模型数据库，一般是mysql MR（计算引擎）：hive的作业（SQL）是通过hive的框架翻译成MR作业。速度很慢。这里的引擎也可以是Tez,Spark,不管底层用的是什么引擎，对于用户来说是不感知

2022-04-05 14:51:17 428

原创配置yarn方法

1.etc/hadoop/mapred-site.xml: <configuration> <property> <name>mapreduce.framework.name</name> --框架配置 <value>yarn</value> </property> <property> <name>mapreduce

2022-04-03 09:35:21 1914

原创 MapReduce2

Combiner（预聚合）：介于map和reduce之间的reduce操作，但是是运行在MapTask 作用：减少数据的网络传输，是一个非常重要的调化优点，减少了一半的网络传输。 1.hadoop解决数据倾斜的方法。什么是数据倾斜：比如：一个文件有a,b,c三个属性的字段，a的数据量1亿个，而b，c仅仅只有一个，经过wordcount，map1:99%，map2:100%，map：100% 解决方法：第一种： combiner：减少数据的网络传输。但是做平均的时候不合适用combin

2022-03-30 14:05:35 1930

原创 MapReduce的wordcount代码

一.在IDEA下编写java程序实现hadoop的wordcount操作。 Mapper代码： package MapReduce_wc; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOExce

2022-03-30 12:34:48 2467

原创 MapReduce(图解)

1.input 读文件 2.split（分片）例如，blocksize（块） 128MB 3.map word->(word,1) key-->values 键值对 4.shuffie（洗牌）默认按照kkey的hash值进行分发，相同的key肯定要分发到同一个reduce任务上去，做到最后的汇总操作。 5.reduce 规约汇总，这里对value做加法。 6.result 输出成文件 java实现： 1.Map： public static clas...

2022-03-27 18:39:53 2305

原创 Yarn的相关知识

一. Yarn 1.yarn的作用：资源的调度分配。 2.主要的模块： 2.1.ResoureManager(RM) yarn是资源控制框架的中心模块，负责集群中所有的资源的统一管理与分配。 2.2.调度器（ResourceScheduler）根据各个应用程序的资源需求，进行分配。 2.3.应用管理器（Applications Maneger）负责监控或跟踪AM的执行状态。 2.4.NodeManager（NM）是ResourceManager每台机器上的代理，负责容器的管理，并监

2022-03-26 19:42:55 4342

原创 HDFS读写流程

HDFS的读流程 HDFS client 调用FileSystem.open(filePath),与NN进行【RPC】通信，返回文件的block列表，返回FSdataInputStream对象，HSFS client调用FileSystem.read方法，与第一块最近的DN进行读取，读取完成后，检查是否返回完成，如果还没完成，就从第二个节点去读取，以此类推，当block列表全部读取完成了，HDFS的读流程就完成了。 2.HDFS的写流程 HDFS client调用 FIieSystem.cre.

2022-03-23 17:37:49 232

原创【Linux环境下安装配置JDK和HADOOP】

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言工欲善其事，必先利其器，对于刚学数仓的人来说，安装配置hadoop是比较困难的，今天给大家来一期关于在Linux的环境下安装hadoop和jdk。提示：以下是本篇文章正文内容，下面案例可供参考一、什么是hadoop？ hadoop是由Apche基金会所开发的分布...

2022-03-22 11:09:32 3720

原创 HDFS的相关使用

它的一些操作命令： hdfs --help --获取详细的帮助信息 dfsadmin --跑一个admin的客户端 fsck --用于检查hdfs的一些文件和目录的健康状况 hdfs namenode -format --格式化namenode hafs dfsadmin -safemode get --hdfs的安全模式（默认是off） hdfs dfs -rm -r --删除文件注：...

2022-03-20 17:54:07 481

m0_64016142的博客