DolphinDB智臾科技

速度即价值

DolphinDB与大数据

关注

文章平均质量分 90

DolphinDB在大数据中的应用

关注数：文章数：108 文章阅读量：88549 文章收藏量：576

作者: DolphinDB智臾科技

高吞吐、低延迟、易上手、综合拥有成本低——分布式时序数据库 DolphinDB，金融和物联网领域的最佳选择。

展开

数据库管理新搭档：集成 DBeaver，操作体验大大升级！

DBeaver 24.1.3 版本已正式引入了对 DolphinDB（需 3.0 版本并启用 catalog）的支持，共同为用户提供更加高效、易用的数据处理与分析解决方案！

原创 2024-11-12 14:09:26 · 251 阅读 · 0 评论
DolphinDB 基准性能测试工具：金融模拟数据生成模块合集

测试 DolphinDB 数据库性能时，往往需要快速写入一些测试数据。为了方便大家快速完成简单的基准性能测试，我们提供了金融 Mock 数据生成模块，覆盖了常用的金融数据集，可以满足大家生成模拟数据的需求。此外，由于不同类型的金融数据具有不同的表结构，我们还在该模块中提供了针对不同数据类型的库表创建函数，方便大家更轻松地创建所需的库表。注意：基于本模块生成的模拟数据不具有实际意义，建议仅作读写性能测试和基础功能体验使用哦~

原创 2024-09-09 16:22:15 · 1325 阅读 · 0 评论
Debezium+Kafka：Oracle 11g 数据实时同步至 DolphinDB 运维手册

之前为大家介绍了如何通过 Debezium 与 Kafka 的组合实现从 Oracle 11g 到 DolphinDB 的数据同步。由于该过程涉及到多个程序的部署，而且具体的 Source 同步任务和 Sink 同步任务还需要额外管理，在运维上具有一定难度，因此我们推出了续篇，详细介绍该数据同步场景的运维操作，欢迎点击了解！

原创 2024-09-02 15:05:22 · 1985 阅读 · 0 评论
K 线图快速绘制教程：使用 KLineChart 展示 DolphinDB K 线

KLineChart 是一款开源、简单易用、适用场景丰富的 Web 前端金融图表，可以用于渲染金融K线图，同时支持多种数据源，提供了丰富的交互功能以及指标计算接口。我们利用 DolphinDB JavaScript API 提供的脚本执行和流订阅等接口，实现了与 KLineChart 前端工具的对接。现在大家可以在 KLineChart 中读取 DolphinDB 中存储的 K 线数据，快速绘制前端 K 线图~具体实现请参考教程！

原创 2024-08-29 17:10:43 · 1444 阅读 · 0 评论
基于车联网大数据平台的用户驾驶习惯行为画像分析

车联网系统中，利用大数据对驾驶行为进行研究，有助于了解驾驶员的特征，并提供优化建议。本文从用户驾驶行程中的速度偏好、驾驶风格、熟练度三个方面描述用户画像，并介绍如何使用 DolphinDB 基于 K-means 算法的聚类模型生成用户画像与个性化标签，完成数据存储、处理、特征提取、模型构建及预测等全过程。

原创 2024-08-15 09:39:19 · 1246 阅读 · 0 评论
上线 Airflow 官方！DolphinDB 带来数据管理新体验

DolphinDB 已正式登陆 Apache Airflow 官方，成为 airflow 官方认可的第三方插件及工具供应商！

原创 2024-07-18 09:51:06 · 671 阅读 · 0 评论
DolphinDB for AI：高性能向量数据库使用指南

在搜索引擎和 AI 生成模型等应用场景下，系统需要在庞大的数据集中，以低延迟和高精度完成相似度搜索和推荐任务，这类任务通常涉及到向量数据的存储和查询。之前 DolphinDB 已经对向量数据的存储提供了支持。为了响应用户日益增长的 AI 运算需求，DolphinDB 在最近发布的3.00.1版本中推出了以 TSDB 作为底层存储引擎的向量数据库 VectorDB ，以实现海量数据的向量检索。点击链接了解向量数据库的支持功能&使用实例！

原创 2024-07-18 09:49:23 · 1511 阅读 · 0 评论
当 DolphinDB 遇上方程式赛车：捕捉极速赛场上的时间印记

当 DolphinDB 遇上方程式赛车，会迸发怎样的火花？DolphinDB 携手同济大学电动方程式赛车队，带来了科技与速度融合的赛车解决方案，让我们领略到：每一毫秒的争夺，既是对速度的极致追求，也是对科技的深刻诠释。

原创 2024-06-19 10:03:55 · 1021 阅读 · 0 评论
概率分布、回归分析、假设检验……用 DolphinDB 函数库快速实现概率统计分析

DolphinDB 丰富的内置 #统计分析函数，能够满足金融及物联网用户的各类业务需求。通过这些函数，用户可以轻松地进行 #概率统计、概率分布分析、随机数生成、 #回归分析和假设检验等操作，实现在金融风险管理、风险评估以及物联网异常检测、预测维护等领域的统计分析需求。建议收藏~

原创 2024-06-05 10:03:02 · 1221 阅读 · 0 评论
Debezium+Kafka：Oracle 11g 数据实时同步至 DolphinDB 解决方案

本篇教程将介绍使用 Debezium 来实时捕获和发布 Oracle 11g 的数据库更改事件，并完成 Oracle 到 DolphinDB 的实时数据同步的完整解决方案。

原创 2024-05-24 14:23:33 · 996 阅读 · 0 评论
更高效的数据交互实现丨 DolphinDB Arrow 插件使用教程

基于 PyArrow 官方提供的 C++ SDK，DolphinDB 开发了能够将 DolphinDB 数据格式和 Arrow 数据格式相互转换的数据格式插件，帮助用户将 DolphinDB 数据服务对接到 Arrow 环境中，以便缩短业务的全流程时间和降低序列化成本。

原创 2024-05-14 14:18:16 · 727 阅读 · 0 评论
DolphinDB 常见数据库错误代码大全

我们整理了 DolphinDB Server 中的异常以及关键错误信息，总结出了一份列表，包含上百个错误代码以及对应的错误原因，方便开发人员更迅速地定位并处理问题~ P.S. 错误代码会随着每一次版本发布而更新，收藏文中详情链接，下次查询不迷路~

原创 2024-03-25 16:04:08 · 502 阅读 · 0 评论
建库建表时，最容易忽略的10个细节

使用 DolphinDB 创建数据库和表时，如果对于分区列、分区类型和排序列的选择未加注意，可能会导致查询速度变慢、数据丢失或插入错误等一系列问题。更好地了解 DolphinDB 建库建表时需注意的细节，有助于加快查询速度、减少内存使用、提高 CPU 利用率。一起来看看这十个细节，check 一下你的建库建表操作吧~

原创 2024-03-05 10:36:09 · 1044 阅读 · 0 评论
大幅提升数据库删除性能丨DolphinDB 软删除功能详解

软删除（Soft Delete）是一种在数据库中处理数据删除的方法，这种删除方式并不是直接从数据库中移除数据，而是通过特定的标记方式在查询的时候将此记录过滤掉，在后台合并数据文件时才真正删除数据。相对于硬删除（Hard Delete），即直接从数据库中永久删除数据，软删除以追加方式进行数据删除，可大幅度提升列式数据库删除的效率。自 DolphinDB 2.00.11版本起，Server 中已开始支持软删除功能。实现原理详情&应用场景&性能测试案例，点击了解更多！

原创 2024-02-26 13:50:20 · 1288 阅读 · 0 评论
云上自动部署丨使用 Terraform 在 AWS 上搭建 DolphinDB

Terraform 是是一款基础架构即代码工具（IaC），几乎支持市面上所有的云服务，能够通过代码管理 IT 资源，并自动化部署资源，从而避免手动部署可能引发的错误。此外，Terraform 的命令行接口（CLI）简化了将配置文件部署到 AWS 或其他云平台的过程。本教程将介绍如何通过 Terraform 快速地在 AWS 部署 DolphinDB 单节点和高可用集群，快来看看吧~

原创 2024-02-01 14:32:52 · 1389 阅读 · 0 评论
数据导入时，最容易忽略的10个细节

导入数据到 DolphinDB 时，无论是从磁盘文件导入，还是使用插件从其他来源导入，如果忽略了数据格式、数据类型、导入速率、数据预处理、连接失败、分区冲突等方面的操作细节，会导致导入失败或导入结果不符合预期。来看看这篇备忘清单，查缺补漏一下数据导入时容易错过的细节吧~

原创 2024-01-26 13:41:52 · 1061 阅读 · 0 评论
新年版本新升级，DolphinDB V2.00.11 & V1.30.23 正式发布！

DolphinDB 2.00.11 & 1.30.23 新版本发布啦！新版本中，新增了 TSDB 引擎的软删除功能、Web 端的数据面板功能、还对数据分析能力做了进一步的提升：支持了 SQL 开窗函数、新增了适合风控计算场景的规则引擎、优化了对数据回放的倍速限制、更新了2024年度的交易日历……同时，新版本的易用性和运维管理功能也得到了提升与强化。

原创 2024-01-10 14:29:39 · 1099 阅读 · 0 评论
DolphinDB 高可用集群迁移指南

在业务可行并确保资源充足的情况下，我们推荐将伪高可用集群迁移升级为高可用集群，以提升系统的稳定性和可靠性。本篇教程将详细介绍如何搭建伪高可用集群，以及如何从伪高可用集群迁移到真正的高可用集群。

原创 2024-01-10 14:26:07 · 969 阅读 · 0 评论
DolphinDB 即时编译（JIT）详解

即时编译(英文: Just-in-time compilation, 缩写: JIT)，又译及时编译或实时编译，是动态编译的一种形式，可提高程序运行效率。通常程序有两种运行方式：编译执行和解释执行。编译执行在程序执行前全部翻译为机器码，特点是运行效率较高，以C/C++为代表。解释执行是由解释器对程序逐句解释并执行，灵活性较强，但是执行效率较低，以Python为代表。即时编译融合了两者的优点，在运行时将代码翻译为机器码，可以达到与静态编译语言相近的执行效率。

原创 2023-12-27 10:24:37 · 980 阅读 · 0 评论
用 DolphinDB summary 函数优化你的数据清洗策略

使用 DolphinDB summary 函数能够生成大规模数据统计信息：对数据集深入分析前，可以通过 summary 函数快速了解数值型列的概括信息，这有助于初步了解数据的分布情况和特征；在探索性数据分析（EDA）过程中，summary函数有助于识别异常值、离群值和数据分析的偏态，通过观察统计信息，可以进一步决定数据清洗和数据转换的策略。

原创 2023-12-26 09:48:55 · 971 阅读 · 0 评论
从 MySQL 到 DolphinDB，Debezium + Kafka 数据同步实战

Debezium 是一个开源的分布式数据库变更数据捕获（CDC）工具，Kafka 是一个高吞吐量的分布式消息系统，两者结合，能够为实时数据同步和流式处理提供强大支持。采用 Debezium 与 Kafka 组合的方式，能够轻松实现从 MySQL 到 DolphinDB 的数据同步，点击原文了解更多~

原创 2023-12-19 10:22:04 · 1358 阅读 · 0 评论
海豚²来了丨DolphinDB 集成 DolphinScheduler，任务调度更轻松

将 #DolphinScheduler 与 #DolphinDB 结合起来，在 DolphinDB 中编写相关任务代码模块，在 DolphinScheduler 上将这些任务按照逻辑编排调度，就能够将任务代码和任务之间逻辑关系分开，每个部分专注于发挥自己的作用，实现更高效地运行维护。

原创 2023-12-12 09:37:53 · 358 阅读 · 0 评论
一文讲解如何从 Clickhouse 迁移数据至 DolphinDB

本文将基于逐笔成交数据，手把手带你了解如何通过 ODBC 插件/ DataX，将数据从 ClickHouse 迁移到 DolphinDB，实现更低运维成本和开发成本、以及更强的数据一致性。点击原文了解更多！

原创 2023-12-08 09:52:32 · 610 阅读 · 0 评论
记一次深入内核的数据库高并发性能优化实践

前不久，我们接到客户长江电力的反馈，称在生产环境中进行高并发查询，例如包含数百个测点的近千个并发作业，在从近三月的数据中取数或聚合计算时，会出现作业超时，但 CPU 利用率却很低…本以为是一次普通平常的性能优化问题，没想到解决问题的过程堪比福尔摩斯探案。戳链接看技术人员如何“破解谜团”~

原创 2023-11-28 14:02:22 · 317 阅读 · 0 评论
基于 Glibc 版本升级的 DolphinDB 数据查询性能优化实践

注意啦！在高并发查询涉及多个分区的情况下，低版本的 glibc（低于2.23）会严重影响查询性能。借助 DolphinDB，用户无需升级系统便可以使用高版本 glibc，提升高并发数据的查询性能~

原创 2023-11-21 10:01:21 · 491 阅读 · 0 评论
用时序数据库 DolphinDB 实现地震波形的分析预警

地震波形数据存储、分析、异常告警……

原创 2023-05-31 10:28:34 · 978 阅读 · 3 评论
DolphinDB 计算节点使用指南

DolphinDB 在架构上引入了计算节点，将集群的计算与存储进行分离，能有效地保证集群数据写入的稳定性，降低故障平均修复时间。

原创 2023-04-18 10:51:18 · 407 阅读 · 0 评论
AWS Markeplace 上的 DolphinDB MGR 快速上手

本教程将介绍如何快速在 AWS 上部署 DolphinDB MGR ，并成功启动一个社区版单机模式的 DolphinDB 服务。请注意，社区版单节点 DolphinDB 服务器的CPU核数上限为2，内存上限为8G。

原创 2023-01-11 09:55:31 · 481 阅读 · 0 评论
从 InfluxDB 迁移数据到 DolphinDB

DolphinDB 是一款国产的高性能分布式时序数据库产品。支持 SQL 和使用类 Python 的语法来处理数据，相比 Flux 语言来讲学习成本较低。同时，DolphinDB 提供了 1400 多个函数，对于复杂的数据处理场景有很强的表达能力，极大的降低了用户开发成本。本文旨在为有从 InfluxDB 迁移至 DolphinDB 需求的用户提供一份简洁明了的参考。

原创 2023-01-05 09:48:47 · 735 阅读 · 0 评论
高频交易数据如何快速降频

我们使用纽约证券交易所的 Level 1报价数据，原始数据大小272GB，数据条数64亿8千万条，降频生成6100万条分钟级数据，耗时仅41秒。

原创 2022-12-06 10:56:34 · 282 阅读 · 0 评论
更强大、更灵活、更全面丨一文搞懂DolphinDB窗口计算

本篇将系统的介绍DolphinDB的窗口计算，从概念划分、应用场景、指标计算等角度，帮助用户快速掌握和运用DolphinDB强大的窗口计算功能。

原创 2021-12-14 11:04:51 · 793 阅读 · 0 评论
支持事务，还是不支持事务？这是一个问题。

时序数据库是过去几年内需求成长最旺盛的一类数据库。在传统的OLTP关系型数据库领域，已经有了不少标杆型的产品，如oracle, mysql, postgresql等等，因此关于这类数据库，一些关键的设计决策已有公认的解决方案。然而与之不同的是，时序数据库作为一类新兴的数据库，目前仍可以说是百花齐放，不同的数据库产品在关键的设计决策上常常都会有区别。那么究竟哪种设计是更合理更“正确”的呢？在许多问题上，目前尚没有定论。事务就是这样一个典型的例子。很多人认为时序数据库不需要支持事务，也因此，大部分时序数据库

原创 2021-11-08 14:15:58 · 1007 阅读 · 0 评论
GIAC专访丨DolphinDB研发总监周信静：实时计算，连接时序数据库和核心业务

随着物联网IoT场景的兴起，大量的时序数据需要存储与计算。时序场景不同于传统OLTP，其写入吞吐要求极高，同时数据量也远大于OLTP场景，必须要进行多机分布式存储；同时事务又是一个很好的特性，许多工业控制IoT场景和金融场景需要事务，而现有时序数据库产品鲜有事务的支持。如何构建一个支持读写事务、高写入吞吐、读不影响写吞吐的分布式时序数据库是一个很大的挑战。DolphinDB时序数据库集成了功能强大的编程语言和高容量高速度的流数据分析系统，为海量结构化数据的快速存储、检索、分析及计算提供一站式解决方案，很

原创 2021-09-28 09:58:45 · 2620 阅读 · 0 评论
DolphinDB 用户社区「AskDolphinDB」正式上线！！

经过一段时间的测试后，我们很高兴地通知大家：AskDolphinDB 问答社区正式上线了！！注册登陆链接：http://ask.dolphindb.net我们希望能给广大 DolphinDB 用户提供一个自由学习、分享的优质平台，http://ask.dolphindb.net将汇集 DolphinDB 用户的集体智慧，沉淀和传播优质技术内容，在社区里，您可以通过运用以下模块加强与其他用户之间的交流和学习：01站内搜索http://ask.dolphindb.net...

原创 2021-06-24 15:23:40 · 1143 阅读 · 0 评论
超级干货预告丨DolphinDB直播系列第二弹！新TSDB存储引擎架构与特性

DolphinDB直播系列的第二弹要来啦~这一次，我们跟大家聊聊：新TSDB存储引擎架构与特性干货满满！精彩不容错过！内容介绍1. 为什么要开发新的TSDB存储引擎？随着TSDB的快速普及，TSDB面对的应用场景也越来越复杂。写数据时，既要能满足海量时间线的快速写入，又要保持存储的低成本，还能满足乱序状态下自动去重等特性。读数据时，既能极速读取每跟时间线最新的状态，高并发高速读取多跟时间线一段时间内的数据，也能快速完成对全量（或大量）时间线一段时间内的数据统计分析。我..

原创 2021-06-23 09:42:07 · 370 阅读 · 0 评论
DolphinDB智臾科技CEO周小华：《从反向控制的终极目标谈时序数据库的架构设计》

2021年4月25-26日，由极客邦科技与InfoQ中国主办的2021ArchSummit全球架构师峰会在上海召开。本次大会聚焦业界强大的技术成果，秉承“实践第一、案例为主”的原则，展示先进技术在行业中的典型实践，以及技术在企业转型、发展中的推动作用。DolphinDB智臾科技CEO周小华博士受邀参加本次会议，并在主会场做《从反向控制的终极目标谈时序数据库的架构设计》演讲。主会场其他演讲主题还包括网易副总裁汪源博士作的《打造开放的云原生操作系统和系统软件架构》、顺丰科技架构委员会负责人刘潭仁作的《

原创 2021-04-28 14:37:24 · 581 阅读 · 2 评论
测试报告丨DolphinDB与MongoDB在时序数据上的对比测试

DolphinDB和MongoDB都是为大数据而生的数据库。但是两者有这较大的区别。前者是列式存储的多模型数据库，主要用于结构化时序数据的高速存储、查询和分析。后者是文档型的NoSQL数据库，可用于处理非结构化和结构化的数据，可以根据键值快速查找或写入一个文档。MongoDB有着自己最合适的应用场景。但是市场上缺少优秀的大数据产品，不少用户试图使用MongoDB来存储和查询物联网和金融领域的结构化时序数据。本测试的目的是评估MongoDB是否适合此类海量时序数据集。时间序列数据库DolphinDB和Mo

原创 2021-04-20 09:12:29 · 910 阅读 · 0 评论
DolphinDB和TimescaleDB 性能对比测试报告

一、概述DolphinDBDolphinDB 是以 C++ 编写的一款分析型的高性能分布式时序数据库，使用高吞吐低延迟的列式内存引擎，集成了功能强大的编程语言和高容量高速度的流数据分析系统，可在数据库中进行复杂的编程和运算，显著减少数据迁移所耗费的时间。DolphinDB 通过内存引擎、数据本地化、细粒度数据分区和并行计算实现高速的分布式计算，内置流水线、 Map Reduce 和迭代计算等多种计算框架，使用内嵌的分布式文件系统自动管理分区数据及其副本，为分布式计算提供负载均衡和容错能力。D

原创 2021-04-12 09:30:29 · 871 阅读 · 0 评论
DolphinDB与Aliyun HybridDB for PostgreSQL在金融数据集上的比较

1. 概述DolphinDB是一款高性能混合列式数据库和数据分析系统，尤其擅长处理时间序列数据。Aliyun HybridDB for PostgreSQL（以下简称HybridDB）是由阿里巴巴提供的基于开源Greenplum定制的MPP架构企业级通用数据仓库产品。在本报告中，我们对DolphinDB和HybridDB，在时间序列数据集上进行了性能对比测试。测试涵盖了CSV文件的加载、单个查询的执行、并发查询的执行等三方面。在我们进行的所有测试中，DolphinDB均表现得更出色，主要结论如下：

原创 2021-04-07 09:30:13 · 324 阅读 · 0 评论
测试报告丨时序数据库DolphinDB与Druid的对比测试

DolphinDB和Druid都是分布式的分析型时序数据库。尽管前者使用c++开发，后者使用java开发，两者在架构、功能、应用场景等方面有很多共同点。本报告在SQL查询、数据导入、磁盘占用空间等方面对两者进行性能的对比测试。测试数据集使用约300GB的美国股票市场交易与报价数据。通过测试我们发现：DolphinDB的数据写入速度大约是Druid的30倍。 DolphinDB的查询速度是Druid的10倍左右。 DolphinDB数据库的静态空间占用比Druid高80%，运行时使用的总磁盘空间略

原创 2021-04-01 09:31:27 · 768 阅读 · 0 评论