自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 计算直播间最高在线人数

以下有一份直播间的数据 room_id user_id start_time end_time 001 23435 2021-11-01 12:09:23 2021-11-01 12:24:54 001 44625 2021-11-01 18:34:26 2021-11-01 19:35:13 002 35780 2021-11-01 16:24:43 2021-11-01 15:54:22 004 43325 2021-11-01 19:04:21 2021-11-01 21:

2021-12-21 17:50:46 2376

原创 限定顺序的密集排名

题目:将挨在一起的CNAME分为一组,计算每条数据对应的分组,具体输入和要求的输出如下: 数据输入: CNMAE ID A 1 A 2 B 3 A 4 A 5 A 6 A 7 D 8 D 9 D 10 B 11 A 12 需要得到的输出: CNMAE ID Group A 1 1 A 2 1 B 3 2 A 4 3 A 5 3 A 6 3 A 7 3 D 8 4 D 9 4 D 10 4

2021-12-21 11:45:10 90

原创 RDD操作

RDD的内部运行方式 RDD(Resilient Distributed Datasets) 是一个容错的,并行的数据结构,可以让用户显式的将数据存储到磁盘和内存中,并能控制数据的分区 提供了一组丰富的操作来操作数据 本质是一个只读的分区记录集合,一个RDD可以包含多个分区,每个分区是一个DataSet片段 RDD之间可以相互依赖(窄依赖,宽依赖) RDD的分区 通过不同的分区,将数据实际映射到不同的Spark节点上 RDD的特点 只读不能修改:只能通过转换操作生成一个新的RDD 分布式存储:一

2021-12-13 23:30:04 2274

原创 HDFS体系结构

NameNode:名称节点 职责: (1)是HDFS的主节点,管理员 (2)接受客户端(命令行、Java程序)的请求:创建目录、上传数据、下载数据、删除数据等 (3)管理和维护HDFS的日志(edits文件)和元信息(fsimage文件) 日志文件(edits文件):记录客户端的所有操作,体现了HDFS的最新状态,是一个二进制文件 位置:$HADOOP_HOME/tmp/dfs/name/current edits_inprogress_xxx 代表:正在操作的日志文件 HDFS提供了..

2021-12-04 23:35:31 174

原创 Hadoop的全分布模式安装

规划 三台机器:bigdata1,bigdata2,bigdata3 bigdata1作为主节点,剩下2台机器作为从节点 #以下操作只在主节点进行 #在root家目录下创建2个文件夹tools和training #tools用来存储压缩文件包,training用于存放解压后的文件 mkdir /root/tools mkdir /root/training #将准备好的安装包上传到tools目录下 scp jdk-8u144-linux-x64.tar.gz root@bigdata1:/root/.

2021-12-04 17:44:09 1884

原创 免密登录的原理和配置

免密登录

2021-12-04 15:56:48 731

原创 大数据概述

大数据概述

2021-12-04 15:51:10 87

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除