自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 MapReduce

SQL --> Hive" easily writing applications" 轻松编写应用程序对于如何容错,如何进行RPC通信等,开发人员不用关注,关注我们的业务逻辑就可以,从这方面来讲,easily业务逻辑 + MR框架自带的内置的组件 => 分布式应用程序开发用MR来做开发,相较于 Spark ,很麻烦Map: 映射 把一个任务拆解成多个Reduce:聚合,把拆解开的任务做最后的聚合操作比如一开始的wordcount.txt文件hadoop h

2022-03-26 15:46:15 2473

原创 Yarn和调度

Yarn的作用:资源调度分配启动Yarn后多了 ResourceManager 和 NodeManager 两个进程Yarn的主要模块:1.ResourceManager(RM)Yarn的资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配。调度器应用管理器2.调度器(ResourceScheduler)根据各个应用程序的资源需求,进行分配3.应用管理器(Applications Manager)负责监控或跟踪AM的执行状态4.NodeMa

2022-03-26 15:23:33 896

原创 连续登录天数

表结构如图1.每个ID最大的连续登录天数先找到连续的可以和日期参照的数字select id, login_date, row_number() over(partition by id order by login_date) as rn from login使用该连续的数字与日期做差select id, login_date, row_number() over(partition by id order by

2022-03-23 19:30:11 445

原创 ROWS Between

ROWS Between表结构:spu_id pt click_pv商品ID 日期 点击量1.对应5天后的click_pv 比如1号要6号的select t.*, nvl(lead(click_pv, 4) over(partition by spu_id order by pt), 0) as lead5_pv from click t2.后5天的click_pv之和select t.*, sum(click_pv) ove

2022-03-23 11:55:45 125

原创 HDFS读写流程

HDFS读流程:HDFS Client调用FileSystem.open(filePath)与NN进行【RPC】通信,返回该文件的block列表FSDataInputStream

2022-03-23 10:59:27 149

原创 HDFS主从架构

NameNode SecondaryNameNode DataNode一、NameNode(简写为NN,名称节点)主要功能,存储的内容包括:1.文件的名称2.文件的目录结构3.文件的属性(权限,副本数,创建时间等)也就是可以用hdfs -dfs ls看的信息*4.一个文件被对应切割哪些数据块(包括副本数的块) ==> 对应分布在哪些DataNode管理文件系统的命名空间,维护文件系统树的文件和文件夹主要文件:镜像文件:fsimage编辑日志文件:edits

2022-03-20 19:01:13 393

原创 HDFS笔记

查看常用命令:hdfs --help可以查看能用哪些 HDFS 命令,以下为可能会用到的一些命令dfsadmin run a DFS admin clientfsck run a DFS filesystem checking utilitydfs run a filesystem command on the file systemnamenode run the DFS

2022-03-20 16:48:17 2092

原创 运行一个MapReduce的JOB

1.在/data目录下创建一个文件vim wordcount.txt放入一些词2.返回hadoop文件夹,在hdfs上创建一个文件夹bin/hdfs dfs -mkdir -p /wordcount/input3.将/data目录下刚创建的文件放到hdfs的这个文件夹下bin/hdfs dfs -put /home/<username>/data/wordcount.txt /wordcount/input执行命令bin/hadoop jar sh

2022-03-19 13:39:55 1007

原创 修改Hadoop的PID存储路径

先停止所有Hadopp服务,进入etc/hadoop/修改hadoop-env.sh文件vi hadoop-env.sh在JAVA HOME后添加export HADOOP_PID_DIR=/home/<username>/tmpexport HADOOP_SECURE_PID_DIR=/home/<username>/tmp再启动服务。

2022-03-19 13:11:01 1637

原创 YARN的配置

1.修改 etc/hadoop/mapred-site.xml文件先备份该文件cp mapred-site.xml mapred-site-bk.xml修改文件vi mapred-site.xml在 <configuration> 之间插入 <property> <name>mapreduce.framework.name</name> <value>yarn</valu..

2022-03-19 12:03:51 3966

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除