数新智能-CSDN博客

原创《深入浅出Apache Spark》系列⑤：Spark SQL的表达式优化

随着数据量的快速增长，传统的数据处理方法难以满足对计算速度、资源利用率以及查询响应时间的要求。为了应对这些挑战，Spark SQL引入了多种优化技术，以提高查询效率，降低计算开销。本文从表达式层面探讨了Spark SQL的优化手段，重点分析了三个方面。

2024-12-16 16:15:41 1147

原创《深入浅出Apache Spark》系列②：Spark SQL原理精髓全解析

本期是 DataFun 深入浅出 Apache Spark 第二期的分享，主要介绍 Apache Spark SQL 原理，包括：Apache Spark SQL 基本概念、Apache Spark SQL 核心组件、Apache Spark SQL API

2024-11-07 14:34:36 1567

原创《深入浅出Apache Spark》系列③：Spark SQL解析层优化策略与案例解析

本系列是Spark系列分享的第三期。第一期分享了SparkCore的一些基本原理和一些基本概念，包括一些核心组件。Spark的所有组件都围绕SparkCore来运转，其中最活跃的一个上层组件是SparkSQL。第二期分享则专门介绍了SparkSQL的基本架构和原理。从第三期开始，后续的分享都围绕着SparkSQL展开，尤其是SparkSQL的优化。

2024-11-07 14:14:08 1054

原创 Spark SQL分析层优化

导读：本期是《深入浅出Apache Spark》系列分享的第四期分享，第一期分享了Spark core的概念、原理和架构，第二期分享了Spark SQL的概念和原理，第三期则为Spark SQL解析层的原理和优化案例。本次分享内容主要是Spark SQL分析层的原理和优化的案例，且此优化案例是对于理解分析层原理很重要的。本期介绍会围绕下面五点展开：前情提要 Spark SQL 分析层原理优化案例总结 Q&A ►►►前情

2024-09-27 14:50:28 1485

原创 Flink优化之--旁路缓存和异步IO

在异步模式下，单个并行子任务可以连续发送多个请求，按照返回的先后顺序对请求进行处理，发送请求后不需要阻塞式等待，省去了大量的等待时间，大幅提高了流处理效率。默认情况下，在Flink 算子中，单个并行子任务只能以同步方式与外部系统交互：将请求发送到外部存储，IO阻塞，等待请求返回，然后继续发送下一个请求。这就是flink的简单优化，综合来看，旁路缓存和异步IO的引入不仅解决了传统计算中存在的瓶颈问题，还为系统的可扩展性和稳定性提供了坚实的保障。堆缓存，性能更好，效率更高，因为数据访问路径更短。

2024-08-29 17:46:06 1101 1

原创 Patch-Package：一款灵活的开源依赖修复工具

它让我们能够在不破坏原有开发流程的前提下进行灵活的修改，是开源项目和团队协作中的得力助手。通过掌握 Patch-Package 的使用方法和最佳实践，你可以大大提高项目的开发效率，避免依赖管理带来的困扰。（原因是笔者对select的组件进行了二次封装，某些value的变化是在下一个 run loop发生的，而element-plus中的表单检查是线性触发的）开发者可以将开源库的源码 Fork 到自己的代码仓库中，然后在 Fork 后的仓库中进行修改和维护。开源库可能存在 Bug 或者与项目不兼容的问题。

2024-08-27 18:00:39 1468

原创玩转生产环境全链路压测

生产环境全链路压力测试（Production Environment Full-Link Stress Testing）是一种针对线上系统进行的综合性性能测试方法。这个过程涉及模拟实际用户行为，从用户界面到后端数据库的整个应用链路上施加预定的高负载，以全面评估系统在接近或超过预期峰值流量条件下的性能表现和稳定性。意味着测试不仅仅局限于某个单一模块或服务，而是涵盖从用户请求发起、前端处理、业务逻辑执行、数据库操作直到最终响应的整个流程。这样可以确保所有组件在高负载下的协同工作情况得到验证。

2024-08-13 16:47:22 1211

原创 DATAX自定义KafkaWriter

可以注意到上文中的Task内部类中定义了几个特殊的变量：recordHeaders、cdcValue、primaryKeys，这几个变量主要是用来定义特殊的kafka消息格式，比如当前代码的逻辑是要将消息转换为CDC相关的格式，所以做了额外处理。可以参考该思路，如果有其他的类似的需求，也可以通过任务配置传递进来，然后构建消息的时候进行处理。该类为我们实现写入数据到kafka的主要逻辑实现类，其主要结构可以参照上文中提到的datax官方文档，代码示例如下，每个地方的处理逻辑可以参考代码中的注释。

2024-08-13 16:34:07 1603

原创 Spark内核的设计原理

同时Spark有任务级别的内存管理，任务的计算属于执行内存的一部分。包括检查点支持，易于使用（支持Java，Scala，Python等编程语言），交互式（Spark Shell）和SQL分析（借鉴了ANSI SQL等标准的实用语法和功能），批流一体，丰富的数据支持，高可用，丰富的文件格式支持。DAG调度（DAGScheduler）负责创建Job，将DAG中的RDD划分到不同的Stage，给Stage创建对应的Task，抽象成Taskset，并将Taskset批量提交给TaskScheduler。

2024-07-22 15:35:44 978

原创以Zookeeper为例浅谈脑裂与奇数节点问题

因此，对于6台服务器的集群，计算过半数需要的票数为 `half = 6 / 2 = 3`，意味着至少需要4票来成功选举出一个Leader。在某些情况下，为了确保集群中只有一个有效的领导者，可以采用磁盘锁或仲裁机制。② 若网络断开，机房1内的3台服务器可以通过内部投票选出一个Leader（因为3票已经超过了5台总数的半数，即2.5向上取整为3），而机房2因只有2台服务器，无法独立选举出Leader。此外，资源的浪费也是脑裂的一个重要影响，因为同一操作可能在多个分区中重复执行，消耗大量计算和存储资源。

2024-07-19 17:45:42 1451

原创 MinIO:开源对象存储解决方案的领先者

MinIO 是一款开源的对象存储系统，致力于提供高性能、可伸缩、安全的数据存储解决方案。官方解释：MinIO 是一个基于Apache License v2。0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口，非常适合于存储大容量非结构化的数据，例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等，而一个对象文件可以是任意大小，从几kb到最大5T不等。MinIO是一个非常轻量的服务,可以很简单的和其他应用的结合，类似 NodeJS, Redis 或者 MySQL。

2024-07-05 18:02:37 4730 1

原创 Airflow任务流调度

Airflow的调度依赖于crontab命令，与crontab相比，Airflow可以方便地查看任务的执行状况（执行是否成功、执行时间、执行依赖等），可追踪任务历史执行情况，任务执行失败时可以收到邮件通知、查看错误日志。在Airflow中，简单地说，task脚本是需要被一个个调起执行的脚本，DAG脚本是管理task脚本执行顺序、执行触发条件的。在Tree View模块可以查看当前DAG每个task任务的调度状态，是执行成功、正在执行、执行失败还是等待执行等，便于快速定位到执行失败的任务，重新调启执行。

2024-06-17 15:42:34 2552

原创机器学习入门指南：Jupyter Notebook实战

对于机器学习工程师而言，他们更擅长的是算法、模型、数据探索的工作，而对于工程化的能力则并不是其擅长的工作。Jupyter Notebook生成PMML文件1。Jupyter Notebook生成PMML文件2。PySpark Notebook建模 -折线图。TensorFlowNotebook建模。R Notebook建模 - 散点图。PySpark Notebook建模。R Notebook获取训练数据集。

2024-05-27 17:57:02 1616

原创 CyberScheduler调度引擎

调度集群由任务转实例、实例派发、基线监控、超时监控、资源管理、资源监控、工作流调度、实例回调、基线警告、实例归档（在大规模的任务实例在长期使用中通过归档可以减少数据查询的影响）、资源调度、故障转移；异构数据源：灵活支持多种数据源：关系型数据库 12 种、大数据存储 15 种、半结构存储 6 种、NOSQL2 种(mongo、es)、消息队列 1 种(kafka);资源调度：支持租户隔离、资源组隔离、项目的简单模式、标准模式、自定义模式；任务调度：做到分布式、高可用、多集群模式，达到千万级，支持水平扩展；

2024-05-17 16:30:11 543

原创 CyberData统一元数据服务

支持基于Spark和Flink的自定义Catalog扩展机制，支持支持更大范围的数据源元数据管理能力，使Spark和Flink引擎能够访问关系型数据库，以及实现与湖仓数据源之间的跨源数据访问。通过guid快速的定位一个表或者列，例如定位元数据表列信息可通过catalogName、schema、tableName、columnName 快速定位，从而确保元数据的唯一性，避免了数据重复、冲突和混淆，更方便的对外透出统一查询元数据的能力。灵活性高，支持API自定义血缘模型，通过API快速构建血缘；

2024-04-26 17:43:20 1233 1

原创数新大数据平台迁移解决方案

数新网络的大数据平台迁移能力矩阵，能够有效支撑企业数据平台迁移的时效性、安全性、可靠性、稳定性。

2024-04-23 17:06:15 1555 1

原创浅谈前端路由原理hash和history

hash 模式是一种把前端路由的路径用 # 拼接在真实 url 后面的模式在hash模式下，本质上是修改window.location.href实现的。前端路由的改变依托于#锚点，而锚点后边的值我们可以通过修改window.location.hash的值来修改，每一次hash值的变化都会导致触发hashchange这个事件，hash模式就是通过 hashchange 事件来监听 hash 值的改变从而渲染页面对应的组件。

2024-03-20 14:45:00 1647

原创理解BS期权定价

BS期权定价理论模型介绍与推导

2024-03-08 11:35:32 2293 1

转载金融信创湖仓一体数据平台架构实践

原攀峰浙江数新网络有限公司 CTO

2024-03-06 13:52:37 582

原创 Flink Kubernetes Operator 介绍

Flink Kubernetes Operator是一种强大而灵活的工具，简化了在Kubernetes上部署和管理Flink集群的复杂性，让开发人员和运维团队能够更专注于业务逻辑而非基础设施的细节。通过使用Operator，可以更轻松地管理Flink作业的生命周期，并根据负载的需求自动调整集群规模，使得在 Kubernetes 上运行 Flink 应用程序变得更加方便和可靠。

2024-01-19 15:04:09 1704

原创数智金融技术峰会|数新网络受邀分享《金融信创湖仓一体数据平台架构实践》，敬请期待

数智金融峰会预告

2023-12-22 17:06:38 543

原创如何发布自定义 npm 组件包

创建、发布、更新、组件，教你掌握npm

2023-12-15 10:51:56 720

原创探秘AI赋能的未来世界：CyberAI深度学习技术助力变革

DNN是一种多层神经网络模型，适用于解决二分类问题。通过学习非线性特征，DNN可以对输入样本进行预测，并根据输出结果进行分类。合理设置模型的架构和超参数，以及进行适当的训练和调优，可以提高DNN在二分类任务上的性能。在二分类问题中，DNN的输出层通常使用Sigmoid激活函数，将输出值限定在0到1之间，表示样本属于某个类别的概率。当输出值大于阈值时，可以将样本归为一类；当输出值小于阈值时，可以将样本归为另一类。对于多分类任务，DNN通常使用Softmax函数作为输出层的激活函数。

2023-12-15 10:21:08 339

原创初识 OpenCV

OpenCV（Open Source Computer Vision Library）是一个涵盖了数百种计算机视觉算法的开源算法库。

2023-12-01 10:03:12 400

原创探索Playwright的现代自动化测试力量

为了确保Web应用程序的无缝运行，自动化测试工具成为了开发人员和测试团队的重要工具。多年来，Selenium一直是自动化测试的黄金标准，然而，在不久前，一个新的有力竞争者崭露头角——Playwright。

2023-12-01 09:54:52 386

原创保姆级连接FusionInsight MRS kerberos Hive

本文将介绍在华为云 FusionInsight MRS（Managed Relational Service）的Kerberos环境中，如何使用Java和DBeaver实现远程连接Hive的方法。

2023-11-24 17:27:40 2371

原创 Presto+Alluxio数据平台实战

Presto是由Facebook开发的开源大数据分布式高性能 SQL查询引擎。起初，Facebook使用Hive来进行交互式查询分析，但 Hive是基于MapReduce为批处理而设计的，延时很高，满足不了用户对于交互式查询想要快速出结果的场景。为了解决Hive并不擅长的交互式查询领域，Facebook 开发了Presto，它专注于提供低延时、高性能的交互式查询服务。

2023-11-24 17:13:07 573

原创 ChatGPT 上新，效果炸裂，知识平台才是大模型的最佳狩猎场

兄弟们，ChatGPT 上新，效果炸裂，咱的哈喇子已经留了一地。

2023-11-10 16:32:47 183

原创 Hadoop RPC简介

数新网络-让每个人享受数据的价值RPC（Remote Procedure Call）远程过程调用协议，一种通过网络从远程计算机上请求服务，而不需要了解底层网络技术的协议。RPC它假定某些协议的存在，例如TPC/UDP等，为通信程序之间携带信息数据。在OSI网络七层模型中，RPC跨越了传输层和应用层，RPC使得开发，包括网络分布式多程序在内的应用程序更加容易。·服务消费方（client）调用，以本地调用方式调用服务·client stub接收到调用后负责将方法、参数等组装成能够进行网络传输的消息体。

2023-10-31 14:45:00 2046 1

空空如也

空空如也