自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 Pipeline 处理管道

在Apache Spark的MLlib库中,是一个强大的工具,它允许用户将多个数据处理和模型训练步骤组合成一个单一的工作流。的主要优势在于它可以自动处理数据在不同阶段之间的转换,并且提供了一种简洁的方式来管理整个机器学习过程。下面是处理管道的一些主要特点和用法:定义处理阶段: 通过一系列的阶段(对象)来定义数据的处理流程。这些阶段可以是特征转换器(如、)、模型训练器(如、)、独热编码(如 one-hot编码),或者是其他任何实现了接口的转换器或估计器。拟合与转换: 一旦定义了的阶段,就可以使用方法在一个

2024-04-01 10:36:57 314

原创 余弦相似度

在编程中,余弦相似度是一种常用于比较两个向量之间相似性的度量方法。它基于余弦定理,通过计算两个向量夹角的余弦值来衡量它们之间的相似性。在编程中,余弦相似度常用于推荐系统、文本相似度分析、图像处理等领域。

2024-04-01 09:31:15 479

原创 Error running DataMing01. Command line is too long. Shorten the command line via JAR manifest or via

翻译为:运行DataMing01出错。命令行太长。通过JAR清单或通过类路径文件缩短命令行并重新运行。

2024-03-30 21:00:00 201

原创 join函数 和 crossJoin函数

在Spark中,普通的join操作是根据两个DataFrame之间共享的键(或列)来组合行的。这与SQL中的JOIN操作非常相似内连接:会过滤掉 id之间不同的数据,剔除表与表中用户id与用户id不存在现有的维表中的记录左连接:不丢数据: 只返回两个DataFrame中键匹配的行。: 返回左DataFrame的所有行,以及右DataFrame中键匹配的行。如果右DataFrame中没有匹配的行,则结果中的对应列将为null。

2024-03-30 00:15:00 372

原创 数据挖掘篇【 concat函数 和 concat_ws函数 】

这个表达式的作用是将user_id列的值、字符串":"(由lit(":")生成)和sku_id列的值连接在一起。$"user_id"$"sku_id"lit(":")lit":"concat因此,如果user_id列的值是123sku_id列的值是456,那么的结果将是字符串"123:456"。

2024-03-29 09:39:43 466

原创 数据挖掘篇【 alias方法 和 隐式转换 】

在 Apache Spark 中,.alias是一个方法,用于给 DataFrame 的列或表达式指定一个新的别名。当你需要对列进行重命名或者在 SQL 表达式中使用更易读的名称时,这个方法非常有用。.alias方法通常与 DataFrame 的列(使用符号或col函数引用)或表达式一起使用,以便在后续的查询或操作中引用它们。

2024-03-29 09:37:38 542 1

原创 数据挖掘篇【 窗口函数 之 dense_rank() 】

是 Apache Spark 中一个用于窗口函数(Window Functions)的排名函数。这个函数会对指定的列进行排序,并为每一行分配一个排名。与函数不同的是,在处理相同值时会保留排名的连续性。也就是说,如果有两个或多个相同的值,它们会获得相同的排名,并且下一个不同值的排名会紧接着前一个排名的下一个整数,而不会跳过任何数字。

2024-03-28 10:36:10 352

原创 大数据挖掘

大数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。它通常与计算机科学紧密相关,并通过统计分析、线上解析解决、情报检索、机器学习算法、专家系统和模式识别等多种方式来实现上述目标。总的来说,大数据挖掘是一个充满挑战和机遇的领域,它不仅为各行各业提供了更高效、更精准的数据支持和服务,也推动了数据科学领域的不断进步和创新。

2024-03-28 10:35:40 210

原创 IDEA的Scala环境搭建

第一个问题肯定是,scala是什么Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的 静态类型编程语言(静态语言需要提前编译的如:Java、c、c++等,动态语言如:js)。Scala是一门多范式的编程语言,Scala支持面向对象和函数式编程。(多范式,就是多种编程方 法的意思。有面向过程、面向对象、泛型、函数式四种程序设计方法。

2024-03-26 22:27:32 868

原创 Hudi最强指南 — Hudi的安装部署(Linux)

随着大数据技术的飞速发展,企业对于数据处理的效率和实时性的要求也越来越高。Hadoop作为大数据领域的领军技术,长久以来一直承载着海量数据的存储和处理任务。然而,传统的Hadoop数据模型在处理更新和删除操作时的局限性,使得它难以满足实时数据湖等复杂场景的需求。正是在这样的背景下,Hudi应运而生。

2024-03-26 22:26:13 1820

原创 搭建Hadoop HA

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它允许用户在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop主要解决大数据存储和大数据分析两大核心问题,其核心组件包括HDFS(Hadoop Distributed File System,即Hadoop分布式文件系统)和MapReduce。而Hadoop HA,即Hadoop高可用(High Availability),指的是Hadoop集群在出现故障时能够持续提供服务的能力。

2024-03-26 15:30:49 430

原创 HBase分布式安装配置

安装部署HBase之前需要确保hadoop分布式部署成功,安装zookeeper。

2024-03-16 01:00:00 745

原创 Clickhouse 单机部署安装

在大数据的时代背景下,数据的处理和分析能力成为企业竞争力的关键。ClickHouse,作为一款由俄国Yandex公司开发的分布式数据分析型数据库,凭借其卓越的性能和稳定性,赢得了业界的广泛关注。本文将介绍ClickHouse的基本概念、特性,并详细阐述其单机部署安装的过程,帮助读者初步了解并顺利搭建ClickHouse环境。

2024-03-15 12:00:10 638

原创 Flink on Yarn安装配置

Apache Flink,作为一个开源的分布式处理引擎,近年来在大数据处理领域崭露头角,其独特的流处理和批处理一体化模型,使得它能够在处理无界和有界数据流时展现出卓越的性能。本文旨在对Flink进行简要的前言性介绍,以及他的安装配置。

2024-03-15 02:00:00 2094

原创 Spark on Yarn安装配置

今天我们讲解Spark的安装配置,spark的部署分为两种,一种是Standalone模式,另一种就是on yarn 模式,我们这一节着重讲解on yarn 模式,因为符合生产活动,但也会提到Standalone模式。

2024-03-15 01:45:00 991

原创 Hive和MySQL的部署、配置Hive元数据存储到MySQL、Hive服务的部署

Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务来执行。Hive 定义了一种简单的类 SQL 查询语言,称为 HQL(Hive Query Language),它允许熟悉 SQL 的用户查询数据。

2024-03-14 07:00:00 1378

原创 Kafka安装配置

Kafka是一种流处理平台,由LinkedIn公司创建,现在是Apache下的开源项目。Kafka通过发布/订阅机制实现消息的异步传输和处理。它具有高吞吐量、低延迟、可伸缩性和可靠性等优点,使其成为了流处理和实时数据管道的首选解决方案

2024-03-14 06:00:00 895

原创 Zookeeper搭建

今天来介绍Zookeeper的搭建,其实Zookeeper的搭建很简单,但是为什么还要单独整一节呢,这就不得不先了解Zookeeper有什么功能了!而且现在很火的框架也离不开Zookeeper,比如说HaddopHA高可用框架,很多在Linux里面运行的Hbase数据库,Kafka也离不开Zookeeper所以在搭建前我们先来了解一下Zookeeper。

2024-03-13 07:00:00 1135

原创 Flume配置,初了解Flume

按官方文档来,Flume就是由Cloudera提供的一个。

2024-03-13 07:00:00 1025

原创 Hadoop完全分布式的搭建

今天我们来学习Hadoop完全分布式的搭建,我们要搭建hadoop完全分布式要掌握哪些东西呢?首先需要掌握的就是Hadoop的基础知识,了解Hadoop的生态系统,包括Hadoop的核心组件(如HDFS、MapReduce、YARN等)以及其他相关组件(如HBase、Hive、Zookeeper等)。理解这些组件的功能和相互作用对于搭建和管理Hadoop集群至关重要。因为Hadoop通常在Linux操作系统上运行,因此需要对Linux有一定的了解,包括基本的命令行操作、系统管理和网络配置等。

2024-03-12 08:15:00 1243

原创 Cannot set priority of namenode process 8095

发现是NameNode 的地址丢失了,也就是hadoop的core-site.xml文件没有配置好。

2024-03-12 08:00:00 434

原创 ubuntu配置映射

如果没有root权限,则无法直接编辑hosts文件。可以先复制该文件到当前目录,再进行编辑,最后将其移回原位置。在打开的文本编辑器中,添加需要映射的IP地址和对应的主机名或域名。在Nano编辑器中,按Ctrl + X组合键,然后按Y键确认保存更改。若想永久性地修改hosts文件,建议创建一个自定义的hosts文件,放置于。在Ubuntu上进行网络地址的映射可以通过修改hosts文件来完成。目录下,这样系统会首先查找此处的hosts文件而不是默认的全局文件。重新启动计算机或者清除DNS缓存,以便立即生效。

2024-03-11 09:11:08 577

原创 java.net.UnknownHostException

只要是用域名代替IP来进行工作的,都有可能出现被DNS解析不了从而报错的场景。

2024-03-11 09:06:45 594

原创 Javascript中Sort对数组进行排序的理解

在 JavaScript 中,方法用于对数组的元素进行排序。这个方法会改变原数组的顺序,并返回排序后的数组。如果没有提供比较函数,那么数组元素会转换为字符串,并按照字符的 Unicode 码点顺序进行排序。

2024-03-01 10:22:29 354

原创 以Scala官方提供的方法解读TraversableOnce

这两个方法的主要目的是将一个对象转换为一个List。toList$方法是一个静态方法,它接受一个参数并调用其toList()方法。而toList方法是一个默认方法,它使用to(...)方法和List的实例来创建一个新的List。在Scala中,是一个标记特质(marker trait),它表示一种可以被遍历一次的集合。这不是一个直接可用的集合类型,而是所有可遍历集合类型的超类。提供了一些遍历集合元素的方法,如foreachmapfilter等。重要的是要理解。

2024-02-23 19:00:00 403

原创 开窗Window和WindowAll的区别

在 Apache Flink 流处理框架中,窗口操作是处理流数据的重要部分。Flink 提供了时间窗口、计数窗口等多种窗口类型,用于将数据分割成不同的窗口进行聚合或其他处理。在选择使用哪种窗口操作时,你需要根据你的业务需求和数据处理逻辑来决定。如果你需要对不同的 key 进行不同的窗口处理,那么应该选择。是 Flink 中窗口操作的两种不同方式,它们分别对应不同的处理函数。如果你需要对所有数据进行全局的窗口处理,那么应该选择。

2024-02-22 19:00:00 792

原创 Spark context stopped while waiting for backend

通过在yarn-site.xml中添加如下配置项,并重启yarn,程序在 “–driver-memory 600m --executor-memory 600m”的参数下已可以成功运行。这个错误通常意味着 Spark 应用程序在等待后端资源或服务时,Spark 上下文(context)被关闭或终止了。翻译过来就是 :Spark上下文在等待后端时停止。

2024-02-03 23:23:31 564

原创 Exception in thread “Thread-6“ java.lang.IllegalStateException: Trying to access closed classloader.

根据提示,禁用classloader.check-leaked-classloader。在 flink 配置文件里 flink-conf.yaml设置。这是一个hadoop3版本和flink导致的一个bug。

2024-02-03 22:45:41 1089

原创 大数据学习之Redis,十大数据类型的具体应用(五)

移动互联网时代LBS应用越来越多,交友软件中附近的小姐姐、外卖软件中附近的美食店铺、高德地图附近的核酸检査点等等,那这种附近各种形形色色的XXX地址位置选择是如何实现的?地球上的地理位置是使用二维的经纬度表示,经度范围(-180,180],纬度范围(-90,90],只要我们确定一个点的经纬度就可以名取得他在地球的位置。例如滴滴打车,最直观的操作就是实时记录更新各个车的位置,然后当我们要找车时,在数据库中查找距离我们(坐标x0,yO)附近r公里范围内部的车辆但是这样会有什么问题呢?

2024-02-01 17:47:45 503

原创 大数据学习之Redis,十大数据类型的具体应用(四)

在 Redis 里面,每个 HyperLogLog 键只需要花费 12 KB 内存,就可以计算接近 2^64 个不同元素的基 数。Redis HyperLogLog 是用来做基数统计的算法,HyperLogLog 的优点是,在输入元素的数量或者体积非常非常大时,计算基数所需的空间总 是固定 的、并且是很小的。但是,因为 HvoerLogL0g 只会根据输入元素来计算基数,而不会储存输入元素本身,所以 HvperLogLog 不能像集合那样,返回输入的各个元素。统计某个网站的UV、统计某个文章的UV。

2024-01-31 23:28:20 681

原创 大数据学习之Redis,十大数据类型的具体应用(三)

位图本质是数组,它是基丁String数据类型的按位的操作。Bitmap支持的最大位数是2^32位,它可以极大的节约存储空间,使用512M内存就可以存储多达42.9亿的字节信息(2^32 = 4294967296)HGETALL uid: map #输出 0 uid-092iok-lkj 1 uid-7388c-xxx。sype k1 #输出 string --> setbit的底层是string。getbit k1 1 #输出 1。getbit k1 2 #输出 1。getbit k1 3 #输出 1。

2024-01-30 23:47:15 617

原创 大数据学习之Redis,十大数据类型的具体应用(二)

返回由所有给定集合的交集产生的集合的基数。按照元素分数从小到大的顺序,返回索引从start到stop之间的所有元素。从键名列表中的第一个非空排序集中弹出一个或多个元素,他们是成员分数对。集合的差集运算 A - B ,属于A但是不属于B的元素构成的集合。集合的并集运算 A∪B ,属于A或者属于B的元素构成的集合。集合的交集运算 A∩B ,属于A同时属于B的元素构成的集合。某score下对应的value值,作用是删除元素。向有序集合中加入一个元素和该元素的分数。设置的数字个数元素,元素不删除。

2024-01-30 15:15:12 959

原创 大数据学习之Redis,十大数据类型的具体应用(一)

一个双端链表的结构,容量是2的32次方减1个元素,大概40多亿,主要功能有push/pop等,一般用在栈、队列、消息队列等场景。PXAT milliseconds-timestamp:设置以毫秒为单位的UNIX时间戳所对应的时间为过期时间。它的底层实际是个双向链表,对两端的操作性能很高,通过索引下标的操作中间的节点性能会较差。EXAT timestamp:设置以秒为单位的UNIX时间戳所对应的时间为过期时间。hexists key 在key里面的某个值的key。命令不区分大小写,而key是区分大小写的。

2024-01-30 10:56:49 1808

原创 大数据学习之Redis、从零基础到入门(三)

String(字符串)string是redis最基本的类型,一个key对应一个value。string类型是的,意思是redis的string可以包含任何数据,比如jpg图片或者序列化的对象string类型是Redis最基本的数据类型,一个redis中字符串value最多可以是512M。

2024-01-29 20:50:56 1062

原创 大数据学习之Redis、从零基础到入门(二)

gcc是linux下的一个编译程序,是C程序的编译工具是 GNU(GNU's Not Unix)计划提供的编译器家族,它能够支持和Ada等等和序设计语言前端,同时能够运行在 X86,x86-64,IA-64,PowerPC,SPARC和Apha 等等几平目前所有的硬件平台上。装于这些特征,以及 GCC 编译代码的高效性,使得 GCC 成为绝大多数自由软件开发编译的首选工具。

2024-01-25 16:07:10 548

原创 大数据学习之Redis、从零基础到入门(一)

Remote Dictionary Server(远程字典服务)是完全开源的,使用ANSIC语言编写遵守BSD协议,是一个高性能的Key-Value数据库提供了丰富的数据结构,例如String、Hash、List、Set、sortedset等等。数据是存在内存中的,同时Redis支持事务、持久化、LUA脚本、发布/订阅、缓存海汰、流技术等多种功能特性提供了主从模式、Redis Sentinel和Redis Cluster集群架构方案Redis之父特雷兹。

2024-01-24 17:36:58 942

原创 免费的XShell替代品,又一国产良心工具

对于经常需要使用终端或SSH连接远程服务器的朋友们来说,XShell是一个非常实用的工具。然而,有时候我们可能希望寻找一些免费的替代品。今天,我要为大家介绍一款国产的良心工具,它也是一个免费的XShell替代品,让我们一起看过来吧不墨迹,咱们直接分享。

2024-01-24 14:39:00 578

原创 大数据学习之Flink算子、了解(Transformation)转换算子(基础篇三)

数据源读入数据之后,我们就可以使用各种转换算子,将一个或多个 DataStream 转换为新的 DataStream,如图所示。一个Flink程序的核心,其实就是所有的转换操作,它们决定了处理的业务逻辑。代码如下:运行结果:直观上看,基本转换算子确实是在“转换”——因为它们都是基于当前数据,去做了处理和输出。而在实际应用中,我们往往需要对大量的数据进行统计或整合,从而提炼出更有用的信息。比如之前 word count 程序中,要对每个词出现的频次进行叠加统计。这种操作,计算的结果不仅依赖当前数据,还跟

2024-01-23 10:54:30 1533

原创 大数据学习之Flink算子、了解(Source)源算子(基础篇二)

接下来我们创建一个自定义的数据源,实现 SourceFunction 接口。主要重写两个关键方法: run()和 cancel()。run()方法:使用运行时上下文对象(SourceContext)向下游发送数据;cancel()方法:通过标识位控制退出循环,来达到中断数据源的效果。

2024-01-23 10:23:27 951

原创 大数据学习之Flink算子、了解DataStream API(基础篇一)

注: 本文只涉及DataStream。

2024-01-23 09:03:37 1194 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除