• 博客(68)
  • 收藏
  • 关注

原创 Spark SQL分析层优化

导读:本期是《深入浅出Apache Spark》系列分享的第四期分享,第一期分享了Spark core的概念、原理和架构,第二期分享了Spark SQL的概念和原理,第三期则为Spark SQL解析层的原理和优化案例。本次分享内容主要是Spark SQL分析层的原理和优化的案例,且此优化案例是对于理解分析层原理很重要的。本期介绍会围绕下面五点展开: 前情提要 Spark SQL 分析层原理 优化案例 总结 Q&A ►►►前情

2024-09-27 14:50:28 1364

原创 Flink优化之--旁路缓存和异步IO

在异步模式下,单个并行子任务可以连续发送多个请求,按照返回的先后顺序对请求进行处理,发送请求后不需要阻塞式等待,省去了大量的等待时间,大幅提高了流处理效率。默认情况下,在Flink 算子中,单个并行子任务只能以同步方式与外部系统交互:将请求发送到外部存储,IO阻塞,等待请求返回,然后继续发送下一个请求。这就是flink的简单优化,综合来看,旁路缓存和异步IO的引入不仅解决了传统计算中存在的瓶颈问题,还为系统的可扩展性和稳定性提供了坚实的保障。堆缓存,性能更好,效率更高,因为数据访问路径更短。

2024-08-29 17:46:06 907

原创 Patch-Package:一款灵活的开源依赖修复工具

它让我们能够在不破坏原有开发流程的前提下进行灵活的修改,是开源项目和团队协作中的得力助手。通过掌握 Patch-Package 的使用方法和最佳实践,你可以大大提高项目的开发效率,避免依赖管理带来的困扰。(原因是笔者对select的组件进行了二次封装,某些value的变化是在下一个 run loop发生的,而element-plus中的表单检查是线性触发的)开发者可以将开源库的源码 Fork 到自己的代码仓库中,然后在 Fork 后的仓库中进行修改和维护。开源库可能存在 Bug 或者与项目不兼容的问题。

2024-08-27 18:00:39 793

原创 玩转生产环境全链路压测

生产环境全链路压力测试(Production Environment Full-Link Stress Testing)是一种针对线上系统进行的综合性性能测试方法。这个过程涉及模拟实际用户行为,从用户界面到后端数据库的整个应用链路上施加预定的高负载,以全面评估系统在接近或超过预期峰值流量条件下的性能表现和稳定性。意味着测试不仅仅局限于某个单一模块或服务,而是涵盖从用户请求发起、前端处理、业务逻辑执行、数据库操作直到最终响应的整个流程。这样可以确保所有组件在高负载下的协同工作情况得到验证。

2024-08-13 16:47:22 1050

原创 DATAX自定义KafkaWriter

可以注意到上文中的Task内部类中定义了几个特殊的变量:recordHeaders、cdcValue、primaryKeys,这几个变量主要是用来定义特殊的kafka消息格式,比如当前代码的逻辑是要将消息转换为CDC相关的格式,所以做了额外处理。可以参考该思路,如果有其他的类似的需求,也可以通过任务配置传递进来,然后构建消息的时候进行处理。该类为我们实现写入数据到kafka的主要逻辑实现类,其主要结构可以参照上文中提到的datax官方文档,代码示例如下,每个地方的处理逻辑可以参考代码中的注释。

2024-08-13 16:34:07 1145

原创 Spark内核的设计原理

同时Spark有任务级别的内存管理,任务的计算属于执行内存的一部分。包括检查点支持,易于使用(支持Java,Scala,Python等编程语言),交互式(Spark Shell)和SQL分析(借鉴了ANSI SQL等标准的实用语法和功能),批流一体,丰富的数据支持,高可用,丰富的文件格式支持。DAG调度(DAGScheduler)负责创建Job,将DAG中的RDD划分到不同的Stage,给Stage创建对应的Task,抽象成Taskset,并将Taskset批量提交给TaskScheduler。

2024-07-22 15:35:44 892

原创 以Zookeeper为例 浅谈脑裂与奇数节点问题

因此,对于6台服务器的集群,计算过半数需要的票数为 `half = 6 / 2 = 3`,意味着至少需要4票来成功选举出一个Leader。在某些情况下,为了确保集群中只有一个有效的领导者,可以采用磁盘锁或仲裁机制。② 若网络断开,机房1内的3台服务器可以通过内部投票选出一个Leader(因为3票已经超过了5台总数的半数,即2.5向上取整为3),而机房2因只有2台服务器,无法独立选举出Leader。此外,资源的浪费也是脑裂的一个重要影响,因为同一操作可能在多个分区中重复执行,消耗大量计算和存储资源。

2024-07-19 17:45:42 1309

原创 MinIO:开源对象存储解决方案的领先者

MinIO 是一款开源的对象存储系统,致力于提供高性能、可伸缩、安全的数据存储解决方案。官方解释:MinIO 是一个基于Apache License v2。0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。MinIO是一个非常轻量的服务,可以很简单的和其他应用的结合,类似 NodeJS, Redis 或者 MySQL。

2024-07-05 18:02:37 4088

原创 Airflow任务流调度

Airflow的调度依赖于crontab命令,与crontab相比,Airflow可以方便地查看任务的执行状况(执行是否成功、执行时间、执行依赖等),可追踪任务历史执行情况,任务执行失败时可以收到邮件通知、查看错误日志。在Airflow中,简单地说,task脚本是需要被一个个调起执行的脚本,DAG脚本是管理task脚本执行顺序、执行触发条件的。在Tree View模块可以查看当前DAG每个task任务的调度状态,是执行成功、正在执行、执行失败还是等待执行等,便于快速定位到执行失败的任务,重新调启执行。

2024-06-17 15:42:34 1312

原创 机器学习入门指南:Jupyter Notebook实战

对于机器学习工程师而言,他们更擅长的是算法、模型、数据探索的工作,而对于工程化的能力则并不是其擅长的工作。Jupyter Notebook生成PMML文件1​​​​​​​。Jupyter Notebook生成PMML文件2​​​​​​​。PySpark Notebook建模 -折线图​​​​​​​。TensorFlowNotebook建模​​​​​​​。R Notebook建模 - 散点图​​​​​​​。PySpark Notebook建模​​​​​​​。R Notebook获取训练数据集​​​​​​​。

2024-05-27 17:57:02 1165

原创 CyberScheduler调度引擎

调度集群由任务转实例、实例派发、基线监控、超时监控、资源管理、资源监控、工作流调度、实例回调、基线警告、实例归档(在大规模的任务实例在长期使用中通过归档可以减少数据查询的影响)、资源调度、故障转移;异构数据源:灵活支持多种数据源:关系型数据库 12 种、大数据存储 15 种、半结构存储 6 种、NOSQL2 种(mongo、es)、消息队列 1 种(kafka);资源调度:支持租户隔离、资源组隔离、项目的简单模式、标准模式、自定义模式;任务调度:做到分布式、高可用、多集群模式,达到千万级,支持水平扩展;

2024-05-17 16:30:11 468

原创 CyberData统一元数据服务

支持基于Spark和Flink的自定义Catalog扩展机制,支持支持更大范围的数据源元数据管理能力,使Spark和Flink引擎能够访问关系型数据库,以及实现与湖仓数据源之间的跨源数据访问。通过guid快速的定位一个表或者列,例如定位元数据表列信息可通过catalogName、schema、tableName、columnName 快速定位,从而确保元数据的唯一性,避免了数据重复、冲突和混淆,更方便的对外透出统一查询元数据的能力。灵活性高,支持API自定义血缘模型,通过API快速构建血缘;

2024-04-26 17:43:20 1072 1

原创 数新大数据平台迁移解决方案

数新网络的大数据平台迁移能力矩阵,能够有效支撑企业数据平台迁移的时效性、安全性、可靠性、稳定性。

2024-04-23 17:06:15 1235 1

原创 浅谈前端路由原理hash和history

hash 模式是一种把前端路由的路径用 # 拼接在真实 url 后面的模式在hash模式下,本质上是修改window.location.href实现的。前端路由的改变依托于#锚点,而锚点后边的值我们可以通过修改window.location.hash的值来修改,每一次hash值的变化都会导致触发hashchange这个事件,hash模式就是通过 hashchange 事件来 监听 hash 值的改变从而渲染页面对应的组件。

2024-03-20 14:45:00 1390

原创 理解BS期权定价

BS期权定价理论模型介绍与推导

2024-03-08 11:35:32 1640

转载 金融信创湖仓一体数据平台架构实践

原攀峰 浙江数新网络有限公司 CTO

2024-03-06 13:52:37 238

原创 Flink Kubernetes Operator 介绍

Flink Kubernetes Operator是一种强大而灵活的工具,简化了在Kubernetes上部署和管理Flink集群的复杂性,让开发人员和运维团队能够更专注于业务逻辑而非基础设施的细节。通过使用Operator,可以更轻松地管理Flink作业的生命周期,并根据负载的需求自动调整集群规模,使得在 Kubernetes 上运行 Flink 应用程序变得更加方便和可靠。

2024-01-19 15:04:09 1393

原创 数智金融技术峰会|数新网络受邀分享《金融信创湖仓一体数据平台架构实践》,敬请期待

数智金融峰会预告

2023-12-22 17:06:38 491

原创 如何发布自定义 npm 组件包

创建、发布、更新、组件,教你掌握npm

2023-12-15 10:51:56 614

原创 探秘AI赋能的未来世界:CyberAI深度学习技术助力变革

DNN是一种多层神经网络模型,适用于解决二分类问题。通过学习非线性特征,DNN可以对输入样本进行预测,并根据输出结果进行分类。合理设置模型的架构和超参数,以及进行适当的训练和调优,可以提高DNN在二分类任务上的性能。在二分类问题中,DNN的输出层通常使用Sigmoid激活函数,将输出值限定在0到1之间,表示样本属于某个类别的概率。当输出值大于阈值时,可以将样本归为一类;当输出值小于阈值时,可以将样本归为另一类。对于多分类任务,DNN通常使用Softmax函数作为输出层的激活函数。

2023-12-15 10:21:08 218

原创 初识 OpenCV

OpenCV(Open Source Computer Vision Library)是一个涵盖了数百种计算机视觉算法的开源算法库。

2023-12-01 10:03:12 352

原创 探索Playwright的现代自动化测试力量

为了确保Web应用程序的无缝运行,自动化测试工具成为了开发人员和测试团队的重要工具。多年来,Selenium一直是自动化测试的黄金标准,然而,在不久前,一个新的有力竞争者崭露头角——Playwright。

2023-12-01 09:54:52 249

原创 保姆级连接FusionInsight MRS kerberos Hive

本文将介绍在华为云 FusionInsight MRS(Managed Relational Service)的Kerberos环境中,如何使用Java和DBeaver实现远程连接Hive的方法。

2023-11-24 17:27:40 1628

原创 Presto+Alluxio数据平台实战

Presto是由Facebook开发的开源大数据分布式高性能 SQL查询引擎。起初,Facebook使用Hive来进行交互式查询分析,但 Hive是基于MapReduce为批处理而设计的,延时很高,满足不了用户对于交互式查询想要快速出结果的场景。为了解决Hive并不擅长的交互式查询领域,Facebook 开发了Presto,它专注于提供低延时、高性能的交互式查询服务。

2023-11-24 17:13:07 504

原创 ChatGPT 上新,效果炸裂,知识平台才是大模型的最佳狩猎场

兄弟们,ChatGPT 上新,效果炸裂,咱的哈喇子已经留了一地。

2023-11-10 16:32:47 162

原创 Hadoop RPC简介

数新网络-让每个人享受数据的价值RPC(Remote Procedure Call)远程过程调用协议,一种通过网络从远程计算机上请求服务,而不需要了解底层网络技术的协议。RPC它假定某些协议的存在,例如TPC/UDP等,为通信程序之间携带信息数据。在OSI网络七层模型中,RPC跨越了传输层和应用层,RPC使得开发,包括网络分布式多程序在内的应用程序更加容易。·服务消费方(client)调用,以本地调用方式调用服务·client stub接收到调用后负责将方法、参数等组装成能够进行网络传输的消息体。

2023-10-31 14:45:00 1932

原创 HDFS架构介绍

一种高容错性分布式文件系统

2023-10-31 11:17:24 550

原创 Hazelcast IMDG 概览

数新网络-让每个人享受数据的价值。

2023-10-31 10:58:52 269

原创 可视化(Visual) SQL初探

该部分涉及SQL 和 可视化部分的基本概念介绍,因篇幅有限,此处会侧重介绍与SQL可视化相关的部分信息,完整的资料可前往本篇结尾的索引部分表节点通过拖拽左侧表节点至右侧图区域可生成表节点,包含选择表,显示表字段信息能力操作节点通过拖拽左侧操作节点至右侧图区域可生成操作节点。以SELECT节点为例,包含选择字段、配置条件等能力边节点之间通过单向边连接,表示节点关系,如FROM,子表,JOIN等图区域SQL可视化区域,包含拖拽、连线、删除、节点操作等能力,可视化清晰展示SQLSQL 代码区域。

2023-10-19 16:38:38 2371

原创 Zookeeper简述

Zookeeper 作为 Hadoop 项目中的一个子项目,是 Hadoop 集群管理的一个必不可少的模块,它主要用 来控制集群中的数据,如它管理 Hadoop 集群中的 NameNode,还有 Hbase 中 Master Election、 Server 之间状态同步等。Zoopkeeper 提供了一套很好的分布式集群管理的机制,就是它这种基于层次型的目录树的数据结构,并对树中的节点进行有效管理,从而可以设计出多种多样的分布式的数据管理模型。

2023-09-06 15:52:57 1564

原创 浅谈机器学习算法-决策树

具体而言,CART会计算每个叶节点内数据的均值和方差。ID3的主要思想是通过递归地选择最佳的特征进行划分,以构建一个树状结构,将数据集划分成不同的子集,最终达到分类的目标。(3)递归构建: 对于每个子集,如果子集内的样本不属于同一类别,则继续递归地进行特征选择和划分,直到满足某个终止条件(例如,子集内的样本都属于同一类别,或者特征已经用完)。监管学习就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。

2023-08-29 15:04:22 173

原创 ECMAScript 2023新增特性

2023年6月27日,第125届ECMA大会正式批准了ECMAScript 2023语言规范,这意味着它现在正式成为最新ECMAScript标准。下面就来看看ECMAScript 2023都有哪些新特性吧!

2023-08-23 10:48:44 316

原创 招聘信息(Java、测试、后端)

简历多投一份,希望就多一分,24届的实习生快来投我,我们提供转正机会哦~官网现已全面升级:数新网络--让每个人享受数据的价值

2023-08-21 09:54:15 130

原创 MySQL三个重要日志

在MySQL中,有三个重要的日志文件,分别是undo log、redo log和binlog。这三个日志文件在MySQL中扮演着不同的角色。这三个日志不仅可以用于恢复数据库的状态,同时还可以增强数据库的性能和可靠性。对于MySQL的性能来说,redo log和undo log是至关重要的,他们通过控制事务的提交和回滚,保证了修改的正确性。binlog则更多的是用于备份和数据复制的场合,做到业务连续不中断。

2023-08-16 09:19:28 150

原创 DFS算法解析

深度优先算法解析

2023-08-08 13:49:32 409

原创 如何使用三台虚拟机搭建一个kubernetes集群?

本次搭建采用kubeadm工具,创建一主多从(单Master)Kubernetes集群。在集群中,有一台Master节点负责控制平面,多台Node节点负责运行容器。

2023-08-03 14:28:18 418

原创 hive数据迁移

Distcp是hadoop内部自带的一个程序,用于hdfs之间的数据拷贝。Distcp是作为一个MapReduce作业来实现的,该复制作业是通过集群中并行运行的map来完成。每个文件通过一个map进行复制,并且distcp试图为每一个map分配大致相等的数据来执行,即把文件划分为大致相等的块。默认情况下,每个集群节点最多分配20个map任务。

2023-06-29 15:08:23 487

原创 拉链表的原理及简单实现

拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。

2023-06-29 14:56:43 382

原创 Flume简述

flume就是集(source+channel+sink)的一个日志数据采集工具

2023-06-29 14:53:32 278

原创 Kafka优化

Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、Storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

2023-06-29 14:44:54 234

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除