数新智能
码龄3年
关注
提问 私信
  • 博客:89,039
    社区:5
    视频:2,687
    91,731
    总访问量
  • 70
    原创
  • 32,660
    排名
  • 331
    粉丝
  • 0
    铁粉

个人简介:数新智能,全称浙江数新网络有限公司,2020年7月成立,总部位于杭州,在上海、北京、深圳等各地设有分支机构。 公司创始人陈廷梁(花名:王贲)是原阿里云大数据平台研发总监,阿里云产品委员会与架构组成员,主导御膳房/数加平台/DataWorks云数仓、云数据平台等核心平台的产品研发与商业化。 数新智能是一家专注于一站式多云数据智能平台和数据价值流通的服务商,可提供一站式大数据+AI基础服务,让大数据、AI和数据价值安全流通得到高质量结合,助力客户实现数字化、智能化转型,激活数据要素潜能,致力于让每个人享受数据的价值。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2022-02-17
博客简介:

datacreating的博客

查看详细资料
博客首页
  • 原力等级
    当前等级
    4
    当前总分
    649
    当月
    5
个人成就
  • 浙江数新网络有限公司官方账号
  • 获得368次点赞
  • 内容获得4次评论
  • 获得598次收藏
  • 代码片获得262次分享
创作历程
  • 20篇
    2024年
  • 38篇
    2023年
  • 13篇
    2022年
成就勋章
TA的专栏
  • 大数据
    3篇
兴趣领域 设置
  • 大数据
    hivespark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

《深入浅出Apache Spark》系列⑤:Spark SQL的表达式优化

随着数据量的快速增长,传统的数据处理方法难以满足对计算速度、资源利用率以及查询响应时间的要求。为了应对这些挑战,Spark SQL引入了多种优化技术,以提高查询效率,降低计算开销。本文从表达式层面探讨了Spark SQL的优化手段,重点分析了三个方面。
原创
发布博客 2024.12.16 ·
1045 阅读 ·
7 点赞 ·
0 评论 ·
14 收藏

《深入浅出Apache Spark》系列②:Spark SQL原理精髓全解析

本期是 DataFun 深入浅出 Apache Spark 第二期的分享,主要介绍 Apache Spark SQL 原理,包括:Apache Spark SQL 基本概念、Apache Spark SQL 核心组件、Apache Spark SQL API
原创
发布博客 2024.11.07 ·
1412 阅读 ·
19 点赞 ·
0 评论 ·
18 收藏

《深入浅出Apache Spark》系列③:Spark SQL解析层优化策略与案例解析

本系列是Spark系列分享的第三期。第一期分享了SparkCore的一些基本原理和一些基本概念,包括一些核心组件。Spark的所有组件都围绕SparkCore来运转,其中最活跃的一个上层组件是SparkSQL。第二期分享则专门介绍了SparkSQL的基本架构和原理。从第三期开始,后续的分享都围绕着SparkSQL展开,尤其是SparkSQL的优化。
原创
发布博客 2024.11.07 ·
979 阅读 ·
10 点赞 ·
0 评论 ·
27 收藏

Spark SQL分析层优化

导读:本期是《深入浅出Apache Spark》系列分享的第四期分享,第一期分享了Spark core的概念、原理和架构,第二期分享了Spark SQL的概念和原理,第三期则为Spark SQL解析层的原理和优化案例。本次分享内容主要是Spark SQL分析层的原理和优化的案例,且此优化案例是对于理解分析层原理很重要的。本期介绍会围绕下面五点展开: 前情提要 Spark SQL 分析层原理 优化案例 总结 Q&A ►►►前情
原创
发布博客 2024.09.27 ·
1416 阅读 ·
19 点赞 ·
0 评论 ·
19 收藏

Flink优化之--旁路缓存和异步IO

在异步模式下,单个并行子任务可以连续发送多个请求,按照返回的先后顺序对请求进行处理,发送请求后不需要阻塞式等待,省去了大量的等待时间,大幅提高了流处理效率。默认情况下,在Flink 算子中,单个并行子任务只能以同步方式与外部系统交互:将请求发送到外部存储,IO阻塞,等待请求返回,然后继续发送下一个请求。这就是flink的简单优化,综合来看,旁路缓存和异步IO的引入不仅解决了传统计算中存在的瓶颈问题,还为系统的可扩展性和稳定性提供了坚实的保障。堆缓存,性能更好,效率更高,因为数据访问路径更短。
原创
发布博客 2024.08.29 ·
990 阅读 ·
8 点赞 ·
0 评论 ·
18 收藏

Patch-Package:一款灵活的开源依赖修复工具

它让我们能够在不破坏原有开发流程的前提下进行灵活的修改,是开源项目和团队协作中的得力助手。通过掌握 Patch-Package 的使用方法和最佳实践,你可以大大提高项目的开发效率,避免依赖管理带来的困扰。(原因是笔者对select的组件进行了二次封装,某些value的变化是在下一个 run loop发生的,而element-plus中的表单检查是线性触发的)开发者可以将开源库的源码 Fork 到自己的代码仓库中,然后在 Fork 后的仓库中进行修改和维护。开源库可能存在 Bug 或者与项目不兼容的问题。
原创
发布博客 2024.08.27 ·
1038 阅读 ·
26 点赞 ·
0 评论 ·
18 收藏

玩转生产环境全链路压测

生产环境全链路压力测试(Production Environment Full-Link Stress Testing)是一种针对线上系统进行的综合性性能测试方法。这个过程涉及模拟实际用户行为,从用户界面到后端数据库的整个应用链路上施加预定的高负载,以全面评估系统在接近或超过预期峰值流量条件下的性能表现和稳定性。意味着测试不仅仅局限于某个单一模块或服务,而是涵盖从用户请求发起、前端处理、业务逻辑执行、数据库操作直到最终响应的整个流程。这样可以确保所有组件在高负载下的协同工作情况得到验证。
原创
发布博客 2024.08.13 ·
1125 阅读 ·
22 点赞 ·
0 评论 ·
20 收藏

DATAX自定义KafkaWriter

可以注意到上文中的Task内部类中定义了几个特殊的变量:recordHeaders、cdcValue、primaryKeys,这几个变量主要是用来定义特殊的kafka消息格式,比如当前代码的逻辑是要将消息转换为CDC相关的格式,所以做了额外处理。可以参考该思路,如果有其他的类似的需求,也可以通过任务配置传递进来,然后构建消息的时候进行处理。该类为我们实现写入数据到kafka的主要逻辑实现类,其主要结构可以参照上文中提到的datax官方文档,代码示例如下,每个地方的处理逻辑可以参考代码中的注释。
原创
发布博客 2024.08.13 ·
1375 阅读 ·
12 点赞 ·
0 评论 ·
12 收藏

Spark内核的设计原理

同时Spark有任务级别的内存管理,任务的计算属于执行内存的一部分。包括检查点支持,易于使用(支持Java,Scala,Python等编程语言),交互式(Spark Shell)和SQL分析(借鉴了ANSI SQL等标准的实用语法和功能),批流一体,丰富的数据支持,高可用,丰富的文件格式支持。DAG调度(DAGScheduler)负责创建Job,将DAG中的RDD划分到不同的Stage,给Stage创建对应的Task,抽象成Taskset,并将Taskset批量提交给TaskScheduler。
原创
发布博客 2024.07.22 ·
939 阅读 ·
20 点赞 ·
0 评论 ·
9 收藏

以Zookeeper为例 浅谈脑裂与奇数节点问题

因此,对于6台服务器的集群,计算过半数需要的票数为 `half = 6 / 2 = 3`,意味着至少需要4票来成功选举出一个Leader。在某些情况下,为了确保集群中只有一个有效的领导者,可以采用磁盘锁或仲裁机制。② 若网络断开,机房1内的3台服务器可以通过内部投票选出一个Leader(因为3票已经超过了5台总数的半数,即2.5向上取整为3),而机房2因只有2台服务器,无法独立选举出Leader。此外,资源的浪费也是脑裂的一个重要影响,因为同一操作可能在多个分区中重复执行,消耗大量计算和存储资源。
原创
发布博客 2024.07.19 ·
1363 阅读 ·
10 点赞 ·
0 评论 ·
14 收藏

MinIO:开源对象存储解决方案的领先者

MinIO 是一款开源的对象存储系统,致力于提供高性能、可伸缩、安全的数据存储解决方案。官方解释:MinIO 是一个基于Apache License v2。0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。MinIO是一个非常轻量的服务,可以很简单的和其他应用的结合,类似 NodeJS, Redis 或者 MySQL。
原创
发布博客 2024.07.05 ·
4373 阅读 ·
12 点赞 ·
0 评论 ·
23 收藏

Airflow任务流调度

Airflow的调度依赖于crontab命令,与crontab相比,Airflow可以方便地查看任务的执行状况(执行是否成功、执行时间、执行依赖等),可追踪任务历史执行情况,任务执行失败时可以收到邮件通知、查看错误日志。在Airflow中,简单地说,task脚本是需要被一个个调起执行的脚本,DAG脚本是管理task脚本执行顺序、执行触发条件的。在Tree View模块可以查看当前DAG每个task任务的调度状态,是执行成功、正在执行、执行失败还是等待执行等,便于快速定位到执行失败的任务,重新调启执行。
原创
发布博客 2024.06.17 ·
1600 阅读 ·
8 点赞 ·
0 评论 ·
33 收藏

机器学习入门指南:Jupyter Notebook实战

对于机器学习工程师而言,他们更擅长的是算法、模型、数据探索的工作,而对于工程化的能力则并不是其擅长的工作。Jupyter Notebook生成PMML文件1​​​​​​​。Jupyter Notebook生成PMML文件2​​​​​​​。PySpark Notebook建模 -折线图​​​​​​​。TensorFlowNotebook建模​​​​​​​。R Notebook建模 - 散点图​​​​​​​。PySpark Notebook建模​​​​​​​。R Notebook获取训练数据集​​​​​​​。
原创
发布博客 2024.05.27 ·
1383 阅读 ·
8 点赞 ·
0 评论 ·
12 收藏

CyberScheduler调度引擎

调度集群由任务转实例、实例派发、基线监控、超时监控、资源管理、资源监控、工作流调度、实例回调、基线警告、实例归档(在大规模的任务实例在长期使用中通过归档可以减少数据查询的影响)、资源调度、故障转移;异构数据源:灵活支持多种数据源:关系型数据库 12 种、大数据存储 15 种、半结构存储 6 种、NOSQL2 种(mongo、es)、消息队列 1 种(kafka);资源调度:支持租户隔离、资源组隔离、项目的简单模式、标准模式、自定义模式;任务调度:做到分布式、高可用、多集群模式,达到千万级,支持水平扩展;
原创
发布博客 2024.05.17 ·
508 阅读 ·
5 点赞 ·
0 评论 ·
4 收藏

CyberData统一元数据服务

支持基于Spark和Flink的自定义Catalog扩展机制,支持支持更大范围的数据源元数据管理能力,使Spark和Flink引擎能够访问关系型数据库,以及实现与湖仓数据源之间的跨源数据访问。通过guid快速的定位一个表或者列,例如定位元数据表列信息可通过catalogName、schema、tableName、columnName 快速定位,从而确保元数据的唯一性,避免了数据重复、冲突和混淆,更方便的对外透出统一查询元数据的能力。灵活性高,支持API自定义血缘模型,通过API快速构建血缘;
原创
发布博客 2024.04.26 ·
1164 阅读 ·
11 点赞 ·
1 评论 ·
9 收藏

数新大数据平台迁移解决方案

数新网络的大数据平台迁移能力矩阵,能够有效支撑企业数据平台迁移的时效性、安全性、可靠性、稳定性。
原创
发布博客 2024.04.23 ·
1374 阅读 ·
25 点赞 ·
1 评论 ·
7 收藏

浅谈前端路由原理hash和history

hash 模式是一种把前端路由的路径用 # 拼接在真实 url 后面的模式在hash模式下,本质上是修改window.location.href实现的。前端路由的改变依托于#锚点,而锚点后边的值我们可以通过修改window.location.hash的值来修改,每一次hash值的变化都会导致触发hashchange这个事件,hash模式就是通过 hashchange 事件来 监听 hash 值的改变从而渲染页面对应的组件。
原创
发布博客 2024.03.20 ·
1526 阅读 ·
26 点赞 ·
0 评论 ·
15 收藏

理解BS期权定价

BS期权定价理论模型介绍与推导
原创
发布博客 2024.03.08 ·
1990 阅读 ·
23 点赞 ·
0 评论 ·
27 收藏

金融信创湖仓一体数据平台架构实践

原攀峰 浙江数新网络有限公司 CTO
转载
发布博客 2024.03.06 ·
349 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Flink Kubernetes Operator 介绍

Flink Kubernetes Operator是一种强大而灵活的工具,简化了在Kubernetes上部署和管理Flink集群的复杂性,让开发人员和运维团队能够更专注于业务逻辑而非基础设施的细节。通过使用Operator,可以更轻松地管理Flink作业的生命周期,并根据负载的需求自动调整集群规模,使得在 Kubernetes 上运行 Flink 应用程序变得更加方便和可靠。
原创
发布博客 2024.01.19 ·
1533 阅读 ·
6 点赞 ·
0 评论 ·
14 收藏
加载更多