- 博客(7)
- 收藏
- 关注
原创 计算直播间最高在线人数
以下有一份直播间的数据 room_id user_id start_time end_time 001 23435 2021-11-01 12:09:23 2021-11-01 12:24:54 001 44625 2021-11-01 18:34:26 2021-11-01 19:35:13 002 35780 2021-11-01 16:24:43 2021-11-01 15:54:22 004 43325 2021-11-01 19:04:21 2021-11-01 21:
2021-12-21 17:50:46
2376
原创 限定顺序的密集排名
题目:将挨在一起的CNAME分为一组,计算每条数据对应的分组,具体输入和要求的输出如下: 数据输入: CNMAE ID A 1 A 2 B 3 A 4 A 5 A 6 A 7 D 8 D 9 D 10 B 11 A 12 需要得到的输出: CNMAE ID Group A 1 1 A 2 1 B 3 2 A 4 3 A 5 3 A 6 3 A 7 3 D 8 4 D 9 4 D 10 4
2021-12-21 11:45:10
90
原创 RDD操作
RDD的内部运行方式 RDD(Resilient Distributed Datasets) 是一个容错的,并行的数据结构,可以让用户显式的将数据存储到磁盘和内存中,并能控制数据的分区 提供了一组丰富的操作来操作数据 本质是一个只读的分区记录集合,一个RDD可以包含多个分区,每个分区是一个DataSet片段 RDD之间可以相互依赖(窄依赖,宽依赖) RDD的分区 通过不同的分区,将数据实际映射到不同的Spark节点上 RDD的特点 只读不能修改:只能通过转换操作生成一个新的RDD 分布式存储:一
2021-12-13 23:30:04
2274
原创 HDFS体系结构
NameNode:名称节点 职责: (1)是HDFS的主节点,管理员 (2)接受客户端(命令行、Java程序)的请求:创建目录、上传数据、下载数据、删除数据等 (3)管理和维护HDFS的日志(edits文件)和元信息(fsimage文件) 日志文件(edits文件):记录客户端的所有操作,体现了HDFS的最新状态,是一个二进制文件 位置:$HADOOP_HOME/tmp/dfs/name/current edits_inprogress_xxx 代表:正在操作的日志文件 HDFS提供了..
2021-12-04 23:35:31
174
原创 Hadoop的全分布模式安装
规划 三台机器:bigdata1,bigdata2,bigdata3 bigdata1作为主节点,剩下2台机器作为从节点 #以下操作只在主节点进行 #在root家目录下创建2个文件夹tools和training #tools用来存储压缩文件包,training用于存放解压后的文件 mkdir /root/tools mkdir /root/training #将准备好的安装包上传到tools目录下 scp jdk-8u144-linux-x64.tar.gz root@bigdata1:/root/.
2021-12-04 17:44:09
1884
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人