m0_37559973-CSDN博客

原创 MS-SWIFT微调Qwen3

Qwen3 是 Qwen 系列最新一代的大型语言模型，提供了一套全面的密集型和专家混合（MoE）模型。基于广泛的训练，Qwen3 在推理、指令遵循、代理能力和多语言支持方面实现了突破性的进展。

2025-04-29 09:40:52 4124 1

原创大模型管理工具：LLaMA-Factory

LLaMA-Factory 是一个开源的大语言模型（LLM）微调框架，旨在简化大规模模型的训练、微调和部署流程。它支持多种主流模型（如 LLaMA、Qwen、ChatGLM 等），提供命令行和可视化 WebUI 两种交互方式，并集成了 LoRA、QLoRA 等高效微调技术，显著降低了模型定制化的技术门槛。

2025-03-04 16:17:40 1202

RemoteDataSize： remote storage(hdfs或对象存储)的数据量. 如果元数据类型是database, 该值包含了database下在回收站中的所有table和partition的remote storage数据量。DataSize：数据量. 如果元数据类型是database, 该值包含了database下在回收站中的所有table和partition的数据量。be.conf 中的配置项会在 BE 进行启动时被读取。BE 重启后该配置将失效。

2024-12-27 15:41:15 1719

原创 PostgreSQL：pg_stat_statements

pg_stat_statements是 PostgreSQL 的一个扩展，它用于收集关于执行的 SQL 语句的统计信息。这可以帮助你分析查询性能，识别慢查询，并优化数据库。

2024-12-19 10:49:19 2761

原创 StarRocks：存算一体模式部署

StarRocks 是一款高性能分析型数据仓库，使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据，也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协议，支持标准 SQL，用户可以轻松地通过 MySQL 客户端连接到 StarRocks 实时查询分析数据。同时 StarRocks 具备水平扩展，高可用、高可靠、易运维等特性。

2024-12-18 15:12:15 4164

原创 Flink：入门介绍

Apache Flink是一个框架和分布式处理引擎，用于在无界和有界数据流上进行有状态计算。Flink 提供了数据分发以及并行化计算的能力，并且可以部署在各种集群环境中，如Hadoop YARN、Kubernetes或独立集群。。

2024-12-04 17:12:11 1630

原创前端：nodejs简介

Node.js 是一个开源、跨平台的JavaScript运行环境，它允许开发者用JavaScript编写命令行工具和服务端应用程序。

2024-12-03 09:58:52 627

原创 Hadoop：单节点配置YARN

Hadoop YARN（Yet Another Resource Negotiator）是Hadoop的资源管理层，负责管理和分配集群中应用程序的资源。

2024-11-06 11:04:06 1019

原创 Hadoop：单机伪分布式部署

Hadoop：单机伪分布式部署

2024-10-29 14:37:42 932

原创大模型：JTokkit 分词

JTokkit 是一个专为 Java 开发者设计的高效文本分词库，主要适用于与 OpenAI 模型进行集成。它提供了一种简单易用的接口，使开发者能够轻松地对输入文本进行编码和解码，尤其是在准备向 GPT-3.5 等模型发送请求时。这个库的设计初衷是为了在 JVM 生态系统中实现类似 Python 中 tiktoken 库的功能。

2024-09-25 16:08:22 727

原创 Linux离线安装rmp包

Linux离线安装rmp包

2024-09-21 19:27:08 3112 3

原创 Doris：数据库建表最佳实践

Doris 数据表模型上目前分为三类：DUPLICATE KEY, UNIQUE KEY, AGGREGATE KEY。因为数据模型在建表时就已经确定，且无法修改。所以，选择一个合适的数据模型非常重要。

2024-09-20 17:54:36 2525

原创 Doris：基于 Catalog 与 Job Scheduler 的数据自动同步

通过Job Scheduler 可与数据湖能力 Multi Catalog 配合，高效完成跨数据源的定期数据同步

2024-09-20 11:06:00 1823

原创 ClickHouse:单机安装

ClickHouse是由Yandex开源的一个高性能、面向列的SQL数据库管理系统（DBMS），用于在线分析处理（OLAP）。它既可作为开源软件单独部署，也可作为云服务提供。

2024-08-06 15:28:02 1155

原创 FoundationDB基本使用

FoundationDB是一个分布式数据库，设计用于在大量普通服务器组成的集群上处理大规模的结构化数据。它将数据组织为有序的键值存储，并对所有操作采用ACID事务来确保数据的完整性。

2024-07-24 17:02:44 2625

原创 Linux：Supervisor进程管理

Supervisor是一个开源的进程管理工具，主要用于在类Unix系统（包括Linux和macOS等）上监控和管理长时间运行的进程（守护进程）。Supervisor通过一个简易的INI风格的配置文件提供了诸多针对单个进程的选项进行配置，比如自动重启失败的进程和自动日志轮转。同时，Supervisor还提供本地或远程的命令行和Web界面来启动、停止和监控进程。

2024-07-18 15:02:09 2128

原创 PostgreSQL主从同步

PostgreSQL的主从同步主要基于其预写日志（Write-Ahead Log, WAL）机制和流复制（Streaming Replication）功能来实现数据的高可用性和一致性。

2024-07-02 16:08:32 3764 1

原创 PostgreSQL分区表

分区表是一种数据库优化技术，它允许将一个大表逻辑上划分为多个较小的、可管理的部分，这些部分被称为分区或子表。分区表在物理上是分开存储的，但在逻辑上仍作为一个整体呈现给用户。这一特性特别适用于处理大量数据的场景，旨在提高查询性能、管理和维护大数据集的效率。

2024-06-29 16:18:58 4134

原创 Doris：倒排索引

倒排索引，是信息检索领域常用的索引技术，将文本分成一个个词，构建词 -> 文档编号的索引，可以快速查找一个词在哪些文档出现。从 2.0.0 版本开始，Doris 支持倒排索引，可以用来进行文本类型的全文检索、普通数值日期类型的等值范围查询，快速从海量数据中过滤出满足条件的行。

2024-06-28 15:57:16 2842

原创 Docker：Harbor基本使用

Docker Harbor 是由 VMware 公司开源的一款企业级的 Docker Registry 项目，旨在为用户提供一个便捷的方式来搭建和管理私有 Docker 镜像仓库。

2024-06-17 17:13:28 1233

原创 Doris：冷热分层

冷热分层支持所有 Doris 功能，只是把部分数据放到对象存储上，以节省成本，不牺牲功能。

2024-06-16 17:20:15 1687

原创大模型：文本分割模型

BERT文本分割-中文-通用领域(nlp_bert_document-segmentation_chinese-base)，该模型基于wiki-zh公开语料训练，对未分割的长文本进行段落分割。提升未分割文本的可读性以及下游NLP任务的性能。

2024-06-13 00:01:55 4366 1

原创 Doris：跨集群数据同步(CCR)

CCR(Cross Cluster Replication) 是跨级群数据同步，能够在库/表级别将源集群的数据变更同步到目标集群，可用于在线服务的数据可用性、隔离在离线负载、建设两地三中心。CCR 通常被用于容灾备份、读写分离、集团与公司间数据传输和隔离升级等场景。

2024-06-08 16:52:09 2208 1

原创阿里通义千问：本地部署Qwen1.5开源大模型

通义千问为阿里云研发的大语言系列模型。千问模型基于Transformer架构，在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在预训练模型的基础之上，使用对齐机制打造了模型的chat版本。

2024-06-06 23:07:44 9255

原创向量数据库：Milvus

Milvus 是一个开源的高性能向量数据库，旨在为嵌入式相似性搜索和人工智能应用提供强大支持。

2024-06-05 16:45:39 1527 1

原创 Docker基本使用

Docker 是一个开源的容器化平台，它允许开发者将应用及其依赖环境打包成轻量级、可移植的容器。

2024-06-04 17:41:14 1964

原创 OceanBase：列存储

OceanBase 4.3 版本基于LSM-Tree 架构基础进行扩展，正式推出列存引擎，在一个架构、一个数据库上，实现了列存和行存数据存储一体化，兼顾 TP 和 AP 查询性能。

2024-05-28 19:06:05 2288

原创大模型框架：vLLM

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。

2024-05-24 16:56:07 14456 1

原创大模型管理工具：Ollama

Ollama 是一个基于 Go 语言开发的可以本地运行大模型的开源框架，同时提供 REST API 管理和使用大模型。

2024-05-13 20:53:58 4232 1

原创大模型管理工具：SWIFT

SWIFT（Scalable lightWeight Infrastructure for Fine-Tuning）是魔搭ModelScope开源社区推出的一套完整的轻量级训练、推理、评估和部署工具，支持200+大模型、15+多模态大模型以及10+轻量化Tuners，让AI爱好者能够使用自己的消费级显卡玩转大模型和AIGC。

2024-05-13 20:53:41 8879 2