july_apply-CSDN博客

原创 MapReduce

SQL --> Hive" easily writing applications" 轻松编写应用程序对于如何容错，如何进行RPC通信等，开发人员不用关注，关注我们的业务逻辑就可以，从这方面来讲，easily业务逻辑 + MR框架自带的内置的组件 => 分布式应用程序开发用MR来做开发，相较于 Spark ，很麻烦Map: 映射把一个任务拆解成多个Reduce:聚合，把拆解开的任务做最后的聚合操作比如一开始的wordcount.txt文件hadoop h

2022-03-26 15:46:15 2473

原创 Yarn和调度

Yarn的作用：资源调度分配启动Yarn后多了 ResourceManager 和 NodeManager 两个进程Yarn的主要模块：1.ResourceManager（RM）Yarn的资源控制框架的中心模块，负责集群中所有的资源的统一管理和分配。调度器应用管理器2.调度器（ResourceScheduler）根据各个应用程序的资源需求，进行分配3.应用管理器（Applications Manager）负责监控或跟踪AM的执行状态4.NodeMa

2022-03-26 15:23:33 896

原创连续登录天数

表结构如图1.每个ID最大的连续登录天数先找到连续的可以和日期参照的数字select id, login_date, row_number() over(partition by id order by login_date) as rn from login使用该连续的数字与日期做差select id, login_date, row_number() over(partition by id order by

2022-03-23 19:30:11 445

原创 ROWS Between

ROWS Between表结构：spu_id pt click_pv商品ID 日期点击量1.对应5天后的click_pv 比如1号要6号的select t.*, nvl(lead(click_pv, 4) over(partition by spu_id order by pt), 0) as lead5_pv from click t2.后5天的click_pv之和select t.*, sum(click_pv) ove

2022-03-23 11:55:45 125

原创 HDFS读写流程

HDFS读流程：HDFS Client调用FileSystem.open(filePath)与NN进行【RPC】通信，返回该文件的block列表FSDataInputStream

2022-03-23 10:59:27 149

原创 HDFS主从架构

NameNode SecondaryNameNode DataNode一、NameNode（简写为NN，名称节点）主要功能，存储的内容包括：1.文件的名称2.文件的目录结构3.文件的属性（权限，副本数，创建时间等）也就是可以用hdfs -dfs ls看的信息*4.一个文件被对应切割哪些数据块（包括副本数的块） ==> 对应分布在哪些DataNode管理文件系统的命名空间，维护文件系统树的文件和文件夹主要文件：镜像文件：fsimage编辑日志文件：edits

2022-03-20 19:01:13 393

原创 HDFS笔记

查看常用命令：hdfs --help可以查看能用哪些 HDFS 命令，以下为可能会用到的一些命令dfsadmin run a DFS admin clientfsck run a DFS filesystem checking utilitydfs run a filesystem command on the file systemnamenode run the DFS

2022-03-20 16:48:17 2092

原创运行一个MapReduce的JOB

1.在/data目录下创建一个文件vim wordcount.txt放入一些词2.返回hadoop文件夹，在hdfs上创建一个文件夹bin/hdfs dfs -mkdir -p /wordcount/input3.将/data目录下刚创建的文件放到hdfs的这个文件夹下bin/hdfs dfs -put /home/<username>/data/wordcount.txt /wordcount/input执行命令bin/hadoop jar sh

2022-03-19 13:39:55 1007

原创修改Hadoop的PID存储路径

先停止所有Hadopp服务，进入etc/hadoop/修改hadoop-env.sh文件vi hadoop-env.sh在JAVA HOME后添加export HADOOP_PID_DIR=/home/<username>/tmpexport HADOOP_SECURE_PID_DIR=/home/<username>/tmp再启动服务。

2022-03-19 13:11:01 1637

原创 YARN的配置

1.修改 etc/hadoop/mapred-site.xml文件先备份该文件cp mapred-site.xml mapred-site-bk.xml修改文件vi mapred-site.xml在 <configuration> 之间插入 <property> <name>mapreduce.framework.name</name> <value>yarn</valu..

2022-03-19 12:03:51 3966

code__gease的博客