大数据
文章平均质量分 82
十二点的泡面
这个作者很懒,什么都没留下…
展开
-
数据挖掘篇【 concat函数 和 concat_ws函数 】
这个表达式的作用是将user_id列的值、字符串":"(由lit(":")生成)和sku_id列的值连接在一起。$"user_id"$"sku_id"lit(":")lit":"concat因此,如果user_id列的值是123sku_id列的值是456,那么的结果将是字符串"123:456"。原创 2024-03-29 09:39:43 · 520 阅读 · 0 评论 -
数据挖掘篇【 alias方法 和 隐式转换 】
在 Apache Spark 中,.alias是一个方法,用于给 DataFrame 的列或表达式指定一个新的别名。当你需要对列进行重命名或者在 SQL 表达式中使用更易读的名称时,这个方法非常有用。.alias方法通常与 DataFrame 的列(使用符号或col函数引用)或表达式一起使用,以便在后续的查询或操作中引用它们。原创 2024-03-29 09:37:38 · 577 阅读 · 1 评论 -
数据挖掘篇【 窗口函数 之 dense_rank() 】
是 Apache Spark 中一个用于窗口函数(Window Functions)的排名函数。这个函数会对指定的列进行排序,并为每一行分配一个排名。与函数不同的是,在处理相同值时会保留排名的连续性。也就是说,如果有两个或多个相同的值,它们会获得相同的排名,并且下一个不同值的排名会紧接着前一个排名的下一个整数,而不会跳过任何数字。原创 2024-03-28 10:36:10 · 474 阅读 · 0 评论 -
大数据挖掘
大数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。它通常与计算机科学紧密相关,并通过统计分析、线上解析解决、情报检索、机器学习算法、专家系统和模式识别等多种方式来实现上述目标。总的来说,大数据挖掘是一个充满挑战和机遇的领域,它不仅为各行各业提供了更高效、更精准的数据支持和服务,也推动了数据科学领域的不断进步和创新。原创 2024-03-28 10:35:40 · 218 阅读 · 0 评论 -
IDEA的Scala环境搭建
第一个问题肯定是,scala是什么Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的 静态类型编程语言(静态语言需要提前编译的如:Java、c、c++等,动态语言如:js)。Scala是一门多范式的编程语言,Scala支持面向对象和函数式编程。(多范式,就是多种编程方 法的意思。有面向过程、面向对象、泛型、函数式四种程序设计方法。原创 2024-03-26 22:27:32 · 2141 阅读 · 0 评论 -
Hudi最强指南 — Hudi的安装部署(Linux)
随着大数据技术的飞速发展,企业对于数据处理的效率和实时性的要求也越来越高。Hadoop作为大数据领域的领军技术,长久以来一直承载着海量数据的存储和处理任务。然而,传统的Hadoop数据模型在处理更新和删除操作时的局限性,使得它难以满足实时数据湖等复杂场景的需求。正是在这样的背景下,Hudi应运而生。原创 2024-03-26 22:26:13 · 3551 阅读 · 0 评论 -
搭建Hadoop HA
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它允许用户在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop主要解决大数据存储和大数据分析两大核心问题,其核心组件包括HDFS(Hadoop Distributed File System,即Hadoop分布式文件系统)和MapReduce。而Hadoop HA,即Hadoop高可用(High Availability),指的是Hadoop集群在出现故障时能够持续提供服务的能力。原创 2024-03-26 15:30:49 · 445 阅读 · 0 评论 -
Clickhouse 单机部署安装
在大数据的时代背景下,数据的处理和分析能力成为企业竞争力的关键。ClickHouse,作为一款由俄国Yandex公司开发的分布式数据分析型数据库,凭借其卓越的性能和稳定性,赢得了业界的广泛关注。本文将介绍ClickHouse的基本概念、特性,并详细阐述其单机部署安装的过程,帮助读者初步了解并顺利搭建ClickHouse环境。原创 2024-03-15 12:00:10 · 719 阅读 · 0 评论 -
HBase分布式安装配置
安装部署HBase之前需要确保hadoop分布式部署成功,安装zookeeper。原创 2024-03-16 01:00:00 · 791 阅读 · 0 评论 -
Flink on Yarn安装配置
Apache Flink,作为一个开源的分布式处理引擎,近年来在大数据处理领域崭露头角,其独特的流处理和批处理一体化模型,使得它能够在处理无界和有界数据流时展现出卓越的性能。本文旨在对Flink进行简要的前言性介绍,以及他的安装配置。原创 2024-03-15 02:00:00 · 3415 阅读 · 0 评论 -
Spark on Yarn安装配置
今天我们讲解Spark的安装配置,spark的部署分为两种,一种是Standalone模式,另一种就是on yarn 模式,我们这一节着重讲解on yarn 模式,因为符合生产活动,但也会提到Standalone模式。原创 2024-03-15 01:45:00 · 1169 阅读 · 0 评论 -
Hive和MySQL的部署、配置Hive元数据存储到MySQL、Hive服务的部署
Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务来执行。Hive 定义了一种简单的类 SQL 查询语言,称为 HQL(Hive Query Language),它允许熟悉 SQL 的用户查询数据。原创 2024-03-14 07:00:00 · 1930 阅读 · 0 评论 -
Kafka安装配置
Kafka是一种流处理平台,由LinkedIn公司创建,现在是Apache下的开源项目。Kafka通过发布/订阅机制实现消息的异步传输和处理。它具有高吞吐量、低延迟、可伸缩性和可靠性等优点,使其成为了流处理和实时数据管道的首选解决方案原创 2024-03-14 06:00:00 · 908 阅读 · 0 评论 -
Flume配置,初了解Flume
按官方文档来,Flume就是由Cloudera提供的一个。原创 2024-03-13 07:00:00 · 1035 阅读 · 0 评论 -
Zookeeper搭建
今天来介绍Zookeeper的搭建,其实Zookeeper的搭建很简单,但是为什么还要单独整一节呢,这就不得不先了解Zookeeper有什么功能了!而且现在很火的框架也离不开Zookeeper,比如说HaddopHA高可用框架,很多在Linux里面运行的Hbase数据库,Kafka也离不开Zookeeper所以在搭建前我们先来了解一下Zookeeper。原创 2024-03-13 07:00:00 · 1194 阅读 · 0 评论 -
Hadoop完全分布式的搭建
今天我们来学习Hadoop完全分布式的搭建,我们要搭建hadoop完全分布式要掌握哪些东西呢?首先需要掌握的就是Hadoop的基础知识,了解Hadoop的生态系统,包括Hadoop的核心组件(如HDFS、MapReduce、YARN等)以及其他相关组件(如HBase、Hive、Zookeeper等)。理解这些组件的功能和相互作用对于搭建和管理Hadoop集群至关重要。因为Hadoop通常在Linux操作系统上运行,因此需要对Linux有一定的了解,包括基本的命令行操作、系统管理和网络配置等。原创 2024-03-12 08:15:00 · 1357 阅读 · 0 评论 -
大数据学习之Flink,10分钟教你快速上手Flink
在实际的生产环境中,真正的数据流其实是无界的,有开始却没有结束,这就要求我们需 要保持一个监听事件的状态,持续地处理捕获的数据。为了模拟这种场景,我们就不再通过读取文件来获取数据了,而是监听数据发送端主机的 指定端口,统计发送来的文本数据中出现过的单词的个数。需要注意的是,这种代码的实现方式,是基于 DataSet API 的,也就是我们对数据的处理转换,是看作数据集来进行操作的。可以看到,我们将文档中的所有单词的频次,全部统计出来,以二元组的形式在控制台打印输出了。使用 Maven 来进行依赖管理。原创 2024-01-22 00:00:12 · 1039 阅读 · 0 评论 -
大数据学习之Flink,10分钟带你初步了解Flink
高吞吐和低延迟。每秒处理数百万个事件,毫秒级延迟。结果的准确性。Flink 提供了事件时间(event-time)和处理时间(processing-time) 语义。对于乱序事件流,事件时间语义仍然能提供一致且准确的结果。精确一次(exactly-once)的状态一致性保证。可以连接到最常用的存储系统,如 Apache Kafka、Apache Cassandra、Elasticsearch、 JDBC、Kinesis 和(分布式)文件系统,如 HDFS 和 S3。高可用。原创 2024-01-21 23:12:45 · 1370 阅读 · 1 评论 -
大数据学习之Flink、比较不同框架的容错机制
了解Flink的容错机制与其他框架(如Apache Kafka、Apache HBase等)的容错机制的异同点,以便更好地选择适合自己应用的容错方案。原创 2024-01-19 18:10:51 · 571 阅读 · 1 评论 -
大数据学习之Flink、Flink容错机制的注意事项
在实际应用中,需要注意一些问题,如避免在Checkpoint期间发生故障、确保Checkpoint和Savepoint的一致性、处理失败的Checkpoint或Savepoint等。原创 2024-01-19 18:05:35 · 548 阅读 · 1 评论 -
大数据学习之Flink、搞懂Flink的恢复策略
了解如何从故障中恢复数据流。根据Checkpoint和Savepoint的状态,可以选择从最近的一个Checkpoint或Savepoint恢复数据流。原创 2024-01-19 18:04:08 · 640 阅读 · 1 评论 -
大数据学习之Flink、10分钟了解Flink的核心组件以及它们的工作原理
的容错机制的核心组件包括和。等等.. .. ..Checkpoint是用于容错和恢复的机制 是 实现容错机制最核心的功能组件,也是四大基石之一,它在数据流处理过程中定期捕获作业状态的快照,并将其存储在可靠的存储系统中。当作业发生故障时, 可以从最近的 Checkpoint 恢复,重新处理数据流,以保证数据的完整性和一致性。Checkpoint 的频率和大小可以通过配置参数进行设置。则是用备份机制,于手动恢复的点。是提供的一种备份机制,用于将作业的状态保存到一个指定的位置。与 Checkpoint 不同, 不原创 2024-01-19 17:56:48 · 1323 阅读 · 1 评论 -
大数据学习所有上的pom文件依赖大全
spark离线处理、flume实时传输、flink实时处理与Kafka、redis做交互等等的依赖项原创 2024-01-19 14:33:59 · 602 阅读 · 1 评论 -
大数据之使用Flume监听端口采集数据流到Kafka
题目:在Master节点使用Flume采集实时数据生成器25001端口的socket数据(实时数据生成器脚本为Master节点/data_log目录下的gen_ds_data_to_socket脚本,该脚本为Master节点本地部署且使用socket传输),将数据存入到Kafka的Topic中(Topic名称为ods_mall_log,分区数为4),使用Kafka自带的消费者消费ods_mall(Topic)中的数据,查看前2条数据的结果;原创 2024-01-05 21:16:57 · 3068 阅读 · 2 评论 -
大数据之使用Flume监听本地文件采集数据流到HDFS
编写新的Flume配置文件,将数据备份到HDFS目录/user/test/flumebackup下,要求所有主题的数据使用同一个Flume配置文件完成,将Flume的配置截图粘贴至对应报告中。-Dflume.root.logger=INFO,console 打印输出在控制台上。进入/data_log路径运行脚本make_data_file_v1产生数据源。原创 2024-01-09 22:07:52 · 972 阅读 · 1 评论 -
8 分钟看完这 7000+ 字,Flink 时间窗口和时间语义这对好朋友你一定搞得懂!外送窗口计算和水印一并搞懂!!!
场景1:电商场景中计算每种商品每1min的累计销售额。场景2:我们在观看直播时,直播间的右上角会展示最近1min的在线人数,并且每隔1min会更新一次。场景3:一件商品被推荐给我们时,展示着这个商品累计的销量,并且销量还会不断地更新(假设10s更新一次)。当我们仔细分析这3个场景中计算的实时指标时,会发现它们都可以被一个统一的计算模型所描述出来,原创 2024-01-17 14:36:12 · 1506 阅读 · 0 评论 -
大数据学习之Flink、快速搞懂Flink的容错机制!!!
的容错机制是确保数据流应用程序在出现故障时能够恢复的关键机制。这种机制通过创建分布式数据流和操作符快照来实现,这被称为检查点(Checkpoint)。当系统遇到故障,例如机器故障、网络故障或软件故障时,会回退到最后一个成功的检查点,然后重新启动所有的算子。这样可以确保即使在故障发生后,应用程序的状态也只会反映数据流中的每个记录一次,实现精确一次(exactly-once)的语义。在有状态的流处理中,如果任务继续处理新数据,并不需要“之前的计算结果”,而是需要任务“之前的状态”。因此,选择了将之前某个时间点所原创 2024-01-18 21:09:25 · 1235 阅读 · 1 评论