大数据
文章平均质量分 88
王哪跑nn
好风凭借力,送我上青云
展开
-
数仓开发之Flume《一》:Flume的概述及安装
主要介绍Flume的架构及安装原创 2024-04-08 09:00:00 · 1493 阅读 · 0 评论 -
大数据 - Spark系列《十五》- spark架构
本文主要讲解了spark的架构以及spark job调度全流程原创 2024-03-31 15:51:00 · 1393 阅读 · 0 评论 -
实时数仓项目《一》-实时数仓架构
本文主要基于实时数仓的常见需求阐述了数仓的架构原创 2024-03-17 18:05:09 · 1187 阅读 · 0 评论 -
大数据 - HBase《一》- Hbase基本概念
主要讲解了一下Hbase的基本概念、数据模型和架构模型原创 2024-03-13 18:05:56 · 1482 阅读 · 0 评论 -
大数据-Spark-关于Json数据格式的数据的处理与练习
本文主要联系了在Spark中怎么处理json数据原创 2024-01-30 20:30:21 · 665 阅读 · 0 评论 -
大数据 - Hadoop系列《四》- MapReduce(分布式计算引擎)的核心思想
本文主要介绍了MR的工作原理原创 2024-01-30 19:41:03 · 1330 阅读 · 0 评论 -
大数据 - Hadoop系列《三》- MapReduce(分布式计算引擎)概述
本文主要介绍了Mapreduce的设计构思和MR的优缺点原创 2024-01-29 21:33:42 · 1471 阅读 · 0 评论 -
大数据 - Spark系列《一》- 分区 partition数目设置详解
本文主要介绍了spark中partition的数目设置原创 2024-01-29 21:12:36 · 1589 阅读 · 0 评论 -
大数据 - Kafka系列《一》- Kafka基本概念
Kafka 最初是由 LinkedIn 即领英公司基于 Scala 和 Java 语言开发的分布式。原创 2024-01-14 22:06:47 · 1018 阅读 · 0 评论 -
大数据-hive函数与mysql函数的辨析及练习-将多行聚合成一行
6)按用户分组,取出每个用户每天看过的所有视频的名字(去重,用;函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生 Array 类型字段。5)按用户分组,取出每个用户每天看过的所有视频的名字(去重,用;1)按用户分组,取出每个用户每天看过的所有视频的名字(不去重)2)按用户2)分组,取出每个用户每天看过的所有视频的名字(去重)3)按用户分组,取出每个用户每天看过的所有视频的名字(不去重)4)按用户分组,取出每个用户每天看过的所有视频的名字(去重)将组内的元素收集成数组 不会去重。原创 2024-01-10 11:29:52 · 672 阅读 · 0 评论 -
大数据 - Doris系列《三》- 数据表设计之表的基本概念
所以,即使在同一台物理机上部署了 3 个或更多 BE 实例,如果这些 BE 的 IP 相同,则依然只能设置副本数为 1。Partition 支持通过 VALUES LESS THAN (...) 仅指定上界,系统会将前一个分区的上界作为该分区的下界,生成一个左闭右开的区间。注意,最后一个分区用户缺失,只指定了 date 列的分区值,所以 id 列的分区值会默认填充 MIN_VALUE。如按天分区,当每天的数据量差异很大时,可以通过指定分区的分桶数,合理划分不同分区的数据,分桶列建议选择区分度大的列。原创 2024-01-10 11:12:10 · 1280 阅读 · 0 评论 -
大数据 - Doris系列《二》- Doris安装(亲测成功版)
BE 的磁盘空间主要用于存放用户数据,总磁盘空间按用户总数据量* 3(3 副本)计算,然后再预留额外 40%的空间用作后台 compaction 以及一些中间数据的存放。不认识,所有linux02和linux03的fe及be节点也需要向linux01的fe节点报道,这样才能写进元数据。参数,你将该命令转为在后台以守护进程的形式运行,不再与当前终端关联,因此可以正常结束终端而不影响该进程的运行。原因这可能是因为在非守护(daemon)模式下,该命令在前台运行,占用了终端并阻塞了你的输入。相对较小轻便,省电。原创 2024-01-04 22:23:41 · 2434 阅读 · 0 评论 -
大数据 - Doris系列《一》- Doris简介
Doris是一款开源的分布式OLAP(联机分析处理)数据库引擎,旨在支持高并发、大规模的数据查询和分析需求。本篇文章将深入介绍OLAP和OLTP的区别,明确它们在用户行为日志数据场景中的应用。我们将比较OLAP和OLTP在处理大规模数据时的性能和优势,并探讨开源OLAP引擎的选择。原创 2024-01-04 12:25:21 · 2346 阅读 · 0 评论 -
大数据 - Hadoop系列《三》- HDFS(分布式文件系统)概述
当HDFS系统的存储空间不够时,我们只需要添加一台新的机器到当前集群中即可完成扩容,这就是我们所说的横向扩容,而集群的存储能力,是按照整个集群中的所有的机器的存储能力来计算的,这也就是我们所说的高扩容性。,如果使用多台计算机进行存储,虽然解决了数据的存储问题,但是后期的管理和维护成本比较高,因为我们不能精准的知道哪台机器上存储了什么样的数据,所以我们。理论上是可以的,但是如果设置的块大小过小,会占用大量的namenode的元数据空间,而且在读写操作时,加大了寻址时间,所以不建议设置的过小。原创 2024-01-01 13:23:29 · 1644 阅读 · 2 评论 -
大数据 - Hadoop系列《二》- Hadoop组成
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。Yet Another Resource Negotiator 简称YARN ,另一种资源协调者,是Hadoop 的资源管理器。ResourceManager(RM):整个集群资源(内存、CPU等)的管理者NodeManager(NM):单个节点服务器资源的管理者。ApplicationMaster(AM):单个任务运行的管理者。原创 2023-12-31 08:00:00 · 971 阅读 · 0 评论 -
大数据- Hadoop入门
Hadoop是一个对大量数据进行分布式处理的。原创 2023-12-30 11:55:25 · 1504 阅读 · 0 评论 -
大数据 - 大数据入门第一篇 | 关于大数据你了解多少?
大数据(BigData):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决、海量数据的采集、存储和分析计算问题。按顺序给出数据存储单位:bit,Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。原创 2023-12-30 11:39:14 · 1238 阅读 · 0 评论 -
大数据-Hive练习-环比增长率、同比增长率、复合增长率
环比增长率是指两个相邻时段之间某种指标的增长率。通常来说,环比增长率是比较两个连续时间段内某项数据的增长量大小的。原创 2023-12-26 08:51:48 · 1576 阅读 · 0 评论 -
大数据-Zookeeper 安装步骤(亲测保成功)
Zookeeper 本地安装步骤和集群一键启停原创 2023-12-20 20:51:38 · 1353 阅读 · 0 评论 -
大数据-MapReduce-关于Json数据格式的数据的处理与练习
1)JSONObject只是一种数据结构,可以理解为。原创 2023-12-16 23:03:15 · 1227 阅读 · 0 评论