一杯派蒙-CSDN博客

原创【mysql 5.7 没有ini 文件，手动添加配置文件】

【代码】【mysql 5.7 没有ini 文件，手动添加配置文件】

2024-04-09 10:08:13 192

原创 002-00-02【大红ai源码】dolphinscheduler3.2.0 源码环境搭建------by孤山村头王大爷家女儿大红

最后访问地址http://localhost:3005/dolphinscheduler/ui，使用默认账户密码 admin/dolphinscheduler123 即可完成登录。复制dolphinscheduler-api 模块的resources下的application.yaml，命名成 application-local-dev.yaml。参考启动api-server，配置好后即可启动。参考启动api-server，配置好后即可启动。将会为您自动检查并修复代码风格和格式问题。

2024-01-29 17:16:13 1211

原创 002-00-01【大红ai源码】如何阅读dolphinscheduler源码------by孤山村头王大爷家女儿大红

用户可以通过拖拽的方式以有向无环图（DAG）的。

2024-01-29 16:43:56 558

原创【项目调研】村头王大爷家女儿王大红用GPT学习了基于datavines的数据质量实践教程

平台主要分为：数据源、告警、错误数据、用户、标签、全局参数、数据质量校验、定时任务等模块。MySQLDorisStarRocksHivePostgreSQLClickHouseTrinoPrestoImpalaDatabend针对每个数据源，有元数据管理，定时采集数据库表的元数据信息。每个数据源点击下钻之后，就是平台的主要功能，数据质量的检测。数据检测支持单表检测和两表比对检测。单表检测的支持项如下自定义聚合SQL非空检查空值检查平均值检查平均长度检查无值检查。

2024-01-24 10:47:25 1280 1

原创 003-90-16【SparkSQL&DF&DS】慈航寺庙山脚下八卦田旁油菜花海深处人家王二爷家女儿大红用GPT学习Rdd和Dataaset 以及DataFrame 的转换

003-90-16【SparkSQL&DF&DS】慈航寺庙山脚下八卦田旁油菜花海深处人家王二爷家女儿大红用GPT学习Rdd和Dataaset 以及DataFrame 的转换。

2024-01-17 09:59:02 474

原创 003-90-15【SparkSQL&DF&DS】慈航寺庙山脚下八卦田旁油菜花海深处人家王大爷家女儿用GPT学习DataSet的基本操作

003-90-14【SparkSQL&DF&DS】慈航寺庙山脚下八卦田旁油菜花海深处人家王大爷家女儿用GPT学习DataSet的基本操作。

2024-01-17 09:29:18 676

原创 003-90-14【SparkSQL&DF&DS】龙井村寸头二大爷家女儿小红用GPT 学习DataFrame 的创建和使用--入门教程

【代码】003-90-14【SparkSQL&DF&DS】龙井村寸头二大爷家女儿小红用GPT 学习DataFrame 的创建和使用--入门教程。

2024-01-15 18:29:16 596

原创 003-90-13【SparkSQL&DF&DS】灵隐寺外桃林深处老王家女儿用GPT 问了8个问题,才把partitionBy和bucketBy给弄懂

可不可以这样理解， partitionBy 是根据具体列的值，进行分区，比如更具city 这个列分区，里面有上海、北京、杭州，那就有三个分区。而bucketBy 根据某列，讲相似的列的值，取它hash 值，然后分成固定的桶数， partitonBy 分区数是不确定的，而bucketBy 分桶数是确定的。然后，我们使用partitionBy方法根据这个新列进行分区，并将数据保存到对应的分区目录中。partitionBy方法按照指定的列的值进行分区，每个不同的值对应一个分区，最终的分区数可能是不确定的。

2024-01-15 18:26:27 885

原创 003-90-12【RDD-Actions】雷峰塔旁城隍阁转角处青瓦房家女儿大红用GPT学习Spark的saveAsTextFile, saveAsSequenceFile, saveAsObject

在上述示例中，我们使用saveAsSequenceFile操作将RDD中的数据保存为SequenceFile格式的文件。在指定的输出目录/path/to/output/directory下，将生成一个或多个文件，其中包含序列化后的RDD中的数据。在指定的输出目录/path/to/output/directory下，将生成一个或多个文本文件，其中包含RDD中的数据。作用：将RDD中的数据保存为SequenceFile格式的文件，SequenceFile是Hadoop中的一种二进制文件格式。

2024-01-14 16:16:12 493

原创 003-90-11【RDD-Actions】寒山寺梅林尽头桃花醉溪边上人家大女儿小桃用GPT学习Spark的countByKey, takeSample, takeOrdered

在上述示例中，我们使用takeSample操作从RDD中随机获取了3个元素。返回的结果是一个包含随机抽样的元素的数组。在上述示例中，我们使用countByKey操作对键值对RDD中的每个键进行计数。返回的结果是一个包含键和对应计数的映射关系的Map。在上述示例中，我们使用takeOrdered操作返回了按照默认升序排列的RDD中的前3个元素。返回的结果是一个包含前3个元素的数组。作用：对键值对RDD中每个键出现的次数进行计数，并返回一个包含键和对应计数的映射关系的Map。

2024-01-14 16:09:46 331

原创 003-10-03【Spark官网思维笔记】法喜寺后山稻香溪边上田姓人家女儿小桃用GPT整理了RDD编程指南

从较高的层面来看，每个 Spark 应用程序都包含一个驱动程序，该程序运行用户的函数并在集群上main执行各种并行操作。Spark 提供的主要抽象是弹性分布式数据集(RDD)，它是跨集群节点分区的元素集合，可以并行操作。RDD 是通过从 Hadoop 文件系统（或任何其他 Hadoop 支持的文件系统）中的文件或驱动程序中现有的 Scala 集合开始，然后对其进行转换来创建的。用户还可以要求 Spark 将RDD持久保存在内存中，从而使其能够在并行操作中高效地重用。最后，RDD 会自动从节点故障中恢复。

2024-01-13 10:00:00 927

原创 003-90-10【RDD-Actions】径山寺山脚下荷花池边田姓人家女儿小桃用GPT学习Spark的collect、count、first、foreach、take

当使用first操作从具有多个分区的RDD中获取第一个元素时，Spark将从第一个分区开始获取元素，直到找到第一个非空分区并返回该分区中的第一个元素。在我们的示例中，如果RDD有多个分区，first操作将从第一个非空分区中获取第一个元素。例如，假设RDD有两个分区，它们分别包含以下元素：分区1：[1, 2, 3]分区2：[4, 5]当我们调用RDD.first()时，Spark将从第一个分区开始查找，即分区1。由于分区1非空，它将返回分区1中的第一个元素1，并且不会继续查找其他分区。

2024-01-12 09:34:15 988

原创 003-90-09【RDD-Actions】法华寺山门前梅林深处许姓人家女儿小白用GPT学习Spark的reduce && reduceByKey

需要注意的是，reduceByKey操作是一个转换操作（transformation），它会返回一个新的PairRDD，而不是一个聚合后的结果。reduceByKey函数将具有相同键的元素进行局部聚合，将键值对中的值相加，并返回一个新的PairRDD，其中每个键的值是聚合后的结果。在执行reduce操作之前，Spark会对RDD进行分区，并在每个分区上进行本地聚合，然后将分区的结果进行全局聚合，得到最终的结果。reduce将RDD中的元素按照指定的聚合函数进行迭代计算，并返回一个聚合后的结果。

2024-01-12 09:24:08 887

原创 003-08-01【Spark-Error】Spark has no access to table，灵隐寺旁许姓人家女儿大红用GPT 解决了spark 的这个问题.

如果您需要在Spark中使用完整的ACID功能，可能需要考虑升级您的Spark版本，或者使用其他支持ACID功能的存储引擎，如Apache HBase或Apache Phoenix。更新Spark配置：在Spark配置中，您可以尝试设置spark.sql.hive.metastore.version属性，以指定与您使用的Hive版本兼容的Hive Metastore版本。确保您的Spark版本与Hive版本兼容：Spark需要与您使用的Hive版本兼容才能正确处理Hive ACID表。

2024-01-11 18:18:36 1599 1

原创 003-10-02【Spark官网思维笔记】香积寺旁老松树边马大爷家女儿大红用GPT学习Spark入门知识

需要注意的是，在Spark 2.0之前，Spark的主要编程接口是弹性分布式数据集（RDD）。与前面使用 Spark shell 的示例不同，Spark shell 会初始化自己的 SparkSession，而我们将 SparkSession 初始化为程序的一部分。有趣的是，这些相同的函数可以用于非常大的数据集，即使它们分布在数十或数百个节点上。在这里，我们调用将行flatMap数据集转换为单词数据集，然后组合groupByKey并count计算文件中每个单词的计数作为（字符串，长整型）对的数据集。

2024-01-11 18:11:36 864

原创 003-90-08【RDD-Transformation】虎跑泉旁人家大闺女小红用GPT学习Spark: filter 和 map

上述示例中，我们使用map操作将原始RDD中的每个元素都乘以2。通过指定函数x => x * 2，我们将原始RDD中的每个元素都映射为该函数的结果。上述示例中，我们使用filter操作从原始RDD中筛选出所有偶数。通过指定条件x % 2 == 0，我们保留了所有满足该条件的元素。作用：对RDD中的每个元素应用指定的函数，并返回一个新的RDD，新RDD的元素是应用函数后的结果。作用：根据指定的条件筛选出满足条件的元素，返回一个新的RDD。

2024-01-10 14:06:30 399

原创 003-90-07【RDD-Transformation】老王家女儿大红用GPT学习Spark: pipe、coalesce、 repartition

上述示例中，我们使用repartitionAndSortWithinPartitions操作将原始RDD重新分区为2个分区，并按键进行排序。上述示例中，我们使用pipe操作将RDD中的每个元素传递给外部命令"echo"，并将外部命令的输出作为新的RDD返回。上述示例中，我们使用coalesce操作将原始RDD的分区数减少到2个。最终的RDD将只有2个分区。作用：将RDD的分区数减少到指定的数量，减少分区数有助于减少数据倾斜和提高性能。作用：根据指定的分区器重新分区RDD，并在每个分区内按键进行排序。

2024-01-10 13:48:05 396

原创 003-90-06【RDD-Transformation】北高山山脚石榴树边上人家二女儿大红用GPT学习了leftOuterJoin rightOuterJoin 和fullOuterJoin

这时可以使用右连接，以产品销售 RDD 作为左侧 RDD，产品 RDD 作为右侧 RDD，连接两个 RDD，保留所有产品的信息，并将销售信息与之匹配的产品连接起来。这时可以使用左连接，以用户 RDD 作为左侧 RDD，订单 RDD 作为右侧 RDD，连接两个 RDD，保留所有用户的信息，并将订单信息与之匹配的用户连接起来。这时可以使用全连接，连接学生 RDD 和课程 RDD，保留所有学生和课程的信息，并将匹配的学生和课程连接起来。最终的连接结果将会是一个包含连接键和对应值的元组的数组。

2024-01-09 12:00:00 879

原创 003-90-05【RDD-Transformation】南山街尽头大柳树旁人家闺女大红用GPT说明join, cogroup, cartesian 的作用

最终的分组连接结果将会是一个包含键和对应值迭代器的元组的数组：Array((“a”, (List(1, 3), List(4, 6))), (“b”, (List(2), List(5))))。最终的连接结果将会是一个包含匹配键的元组的数组：Array((“a”, (1, 4)), (“b”, (2, 5)))。使用 cartesian 函数计算这两个 RDD 之间的笛卡尔积，返回一个新的 RDD，其中包含所有可能的元素对。在上面的示例中，我们创建了两个 RDD，一个包含整数，一个包含字符串。

2024-01-09 09:00:00 833

原创 003-90-04【RDD-Transformation】 sample, union, intersection, distinct 使用示例--来自于宝石山脚下小桥流水边人家大女儿小红的GPT笔记

然后，我们使用 distinct 函数对 RDD 进行去重操作，得到一个新的 RDD，其中不包含重复的元素。最后，我们使用 collect 函数将去重后的结果收集到数组中，并输出结果。需要注意的是，distinct 操作会对整个 RDD 进行去重，因此它可能会导致数据的重分区。在上面的示例中，我们使用 intersection 函数获取两个 RDD 的交集。运行上述代码后，输出的结果会是一个包含不重复元素的数组：Array(1, 2, 3, 4, 5, 6, 7)。

2024-01-08 13:41:37 679

原创 003-90-03【RDD-Transformation】长桥桥头人家女儿大红用GPT给葫芦娃爷爷阐述spark Rdd sortByKey的使用方法

然后，我们使用 sortByKey 函数对 RDD 进行排序操作，根据键对 RDD 中的元素进行升序排序。最终的排序结果将会是一个按键进行降序排序的数组：Array((“c”, 3), (“b”, 2), (“a”, 1))。它根据键对 RDD 中的元素进行排序，并返回一个新的排序后的 RDD。运行上述代码后，输出的结果会是一个按键进行排序的数组：Array((“a”, 1), (“b”, 2), (“c”, 3))。ascending：指定排序的顺序，即升序或降序，默认为 true，即升序排序。

2024-01-08 09:36:05 356

原创 003-10-01【Spark官网思维笔记】山那头小学同桌大红和我说：spark-2.3.0 要学习些什么之官网概述

Apache Spark 是一个快速、通用的集群计算系统。它提供 Java、Scala、Python 和 R 中的高级 API，以及支持通用执行图的优化引擎。它还支持一组丰富的高级工具，包括用于 SQL 和结构化数据处理的Spark SQL 、用于机器学习的MLlib 、用于图形处理的GraphX和Spark Streaming。Spark SQL，内置函数 (MkDocs)

2024-01-07 10:00:00 847

原创 003-90-02【RDD-Transformation】孤山村村头王二姨家小表妹用GPT4说明spark groupByKey, reduceByKey, aggragateByKey的区别

在聚合函数 (acc, value) => (acc._1 + value, Math.max(acc._2, value)) 中，(0, 0) 是初始值，(acc._1 + value, Math.max(acc._2, value)) 将每个分区中的值累加到 acc._1 中，并找到最大值保存在 acc._2 中。聚合函数 (acc, value) => (acc._1 + value, Math.max(acc._2, value)) 的作用是将每个分区中的值与累加器进行聚合操作。

2024-01-06 10:51:50 866

原创 003-90-01【RDD-Transformation】山那头村花大红用GPT4搜索到了flatMap 和 mapPartitions 以及mapPatitionsWithIndex 的作用和区别

具体来说，对于每个分区，mapPartitions 函数会接收一个迭代器 partition，该迭代器包含了该分区中的所有元素。最后，mapPartitions 函数会将每个分区的结果迭代器收集起来，并返回一个新的 RDD，其中每个元素都是一个分区的求和结果。但需要注意的是，mapPartitions 操作需要在每个分区中处理所有元素，如果分区中的元素数量较大，可能会导致内存问题。简而言之，这行代码的作用是对 RDD 中的每个分区进行求和操作，返回一个包含每个分区求和结果的新的 RDD。

2024-01-06 10:00:00 808

原创 002-01-01 来自山那头儿表哥“大水牛”通过GPT4 获取的mysql 加解密：base64, hex， aes

为了保障个人财产和生命的安全，必须有意识地保护个人的敏感信息。生活中的个人敏感信息包括如下内容：生物识别、宗教信仰、金融账户、行踪轨迹、健康信息、民族和宗教信仰、性取向和性偏好、教育信息、隐私通讯等。1、生物识别信息：如个人基因、指纹、声纹、掌纹、耳廓、虹膜、面部特征等等，可以用于身份验证和个人信息的保护。2、个人身份信息：包括姓名、身份证号码、出生日期、家庭住址、政治面貌、职业、军官证、护照、驾驶证、工作证、社保卡、居住证等敏感信息。

2024-01-05 10:09:43 399

原创 001-01-01 隔壁村花大红用ChatGPT4教会我什么是Scala的隐式转换

是一种特殊的语言特性，它允许编译器在需要的时候自动执行类型转换。通过定义特定的函数或方法来实现隐式转换，这些函数或方法被称为隐式转换函数（Implicit Conversion Function）或隐式转换方法（Implicit Conversion Method）。这些方法和和函数可以在运行的时候自动将类型 A 转换为类型 B。

2024-01-05 09:20:58 997

原创联想电脑ctrl + r 快捷键无法使用

ctrl+r快捷键为什么突然用不了

2023-01-29 11:13:17 2206 8

原创 SSL certificate problem: unable to get local issuer certificate

这个问题是由于没有配置信任的服务器HTTPS验证。默认，cURL被设为不信任任何CAs，就是说，它不信任任何服务器验证。在网上查了很多方法，最终使用如下方法解决的。

2022-12-19 10:13:30 607

原创 spring-boot aop 不生效，两个方法A()和B()，A调用了B，则外部service调用A时不会走B相关的切面方法

原因网上已经说得已经很多了，和aop原理相关，大体就是外部直接调用logService.B()时这个logService对象是个代理对象，相关方法也是aop包装过的。而logService.A()中调用的B()，是原装的B()。在A()调用B()时，使用类似 applicationContext.getBean() 的方法获取当前service的代理对象。例如，LogService 有两个方法A()和B()，A调用了B，则外部service调用A时不会走B相关的切面方法。这个对象就是代理对象。

2022-09-02 17:30:31 649

原创 npm 编译报错extract:echarts:sillextract echarts@^4.2.0-rc.2 extracted to

主要是因为npm安装插件是从国外服务器下载，受网络影响大，一般网速不好的情况下，会等很久很久，有时还会直接断开连接。解决办法将npm的源换成淘宝镜像使用下面命令更换源。npm config set registry https://registry.npm.taobao.org配置后可通过下面方式来验证是否成功npm config get registry输入命令执行后，输出内容如下，即代表更换成功。https://registry.npm.taobao.org/...

2022-04-12 16:19:43 2910

原创查看phoenix表格有哪些索引

phoenix 查看表格有哪些索引!indexes "table_name“

2021-11-29 19:32:12 928

原创 es 精确统计的实现方式1.

es 精确统计的实现方式1.{ "size":0, "query":{ }, "aggs": { "ipSrcNum": { "stats_bucket": { "buckets_path": "ipSrcAddrDistinct>_count" } }, "ipSrcAddrDistinct": { "terms": { "field": "ip_src_

2021-11-15 18:43:01 1517 1

原创 phoenix 批量更新。

upsert into “dsg_asset_list”(“ROW”,“department_id”) select “ROW”,‘1’ from “dsg_asset_list”;

2021-11-04 14:09:23 654

原创 rpm 忽略某些步骤--noscripts --nopre --nopost --nopreun --nopostun

–noscripts 相当于 --nopre --nopost --nopreun --nopostun用法rpm -e --noscripts ****.rpmrpm -ivh --noscripts ****.rpm

2021-08-31 09:15:04 651

原创 Error while executing topic command : replication factor: 1 larger than available brokers: 0

Error while executing topic command : replication factor: 1 larger than available brokers: 0问题原因：kafka 没有正确启动，可以检查kafka日志查看报错问题。登录zookeeper客户端，ls /brokers/ids 会看到，没有ids 下没有brokerid，我的是域名映射不对，kafka没有正确启动的原因：kafka.common.KafkaException: Socket server fa

2021-06-22 16:45:32 780

空空如也

空空如也