自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 【文章分享】基于NLP的非结构化高维大数据时序特征提取方法

非结构化文本数据呈爆炸式增长,从非结构化高维大数据中提取有效的时间维度特征具有重要意义。因此,提出了一种基于 NLP 的非结构化高维大数据时间维度特征提取方法。通过 NLP 深度学习模型,结合关联规则挖掘技术和特征量化方法,对非结构化多维大数据的时间维度进行有效的特征提取优化。应用并行数据流重构和模糊 C 聚类算法搜索高维大数据并排列信息。基于空间框架,实现了非结构化高维大数据分析中时间视角特征提取的优化。

2025-04-16 15:23:48 781

原创 【文章分享】一种基于模型切片的分布式 LLM安全框架

分布式(联邦)大语言模型(LLM)是一种利用分散数据进行领域特定LLM协同训练的重要方法。然而,恶意从服务器或客户端窃取模型参数和数据已成为亟待解决的问题。提出了一种基于模型切片的分布式LLM安全框架。在客户端和服务器端部署了可信执行环境(TEE),并将微调结构(如LoRA或P-tuning v2的嵌入)放入TEE中。然后,通过轻量级加密在TEE和通用环境中执行安全通信。为了进一步降低设备成本并提高模型性能和准确性,提出了一种分层微调方案。

2025-02-28 16:20:40 1729

原创 【Apache Paimon】Paimon集成 Flink 引擎之DDL(二)

在 Paimon Catalog中创建的表就是Paimon的管理表,由Catalog管理。当表从Catalog中删除时,其表文件也将被删除,类似于Hive的内部表。通过配置partition.expiration-time,可以自动删除过期的分区。如果定义了主键,则分区字段必须是主键的子集。

2025-02-26 09:00:00 866

原创 【Apache Paimon】Paimon集成 Flink 引擎之环境准备(一)

jar包下载地址:https://repository.apache.org/snapshots/org/apache/paimon/paimon-flink-1.17/0.5-SNAPSHOT/上述配置需要在hive-site.xml中配置,且hive metastore服务需要重启。将flink-sql-connector-hive-3.1.3_2.12-1.17.0.jar上川到Flink的lib目录下。

2025-02-25 11:02:38 499

原创 【文章分享】创新 SQL 自动化:使用企业数据解决方案的双阶段方法评估开源大型语言模型

为了使模型适应企业环境,创建了一个自定义数据集。此过程涉及使用 GPT-3 生成合成数据,对其进行验证,并用现有报告中的数据对其进行补充,以准确反映现实世界的企业数据复杂性。提取 Schema 信息:提取了 20 个表及其关系的定义,这些表将用于 SQL 查询。生成 NL-SQL 对:使用 GPT-3 根据表定义和列描述生成 NL 查询和相应的 SQL 查询。重复此过程,直到数据集足够大。验证综合查询:检查 GPT-3 生成的查询的准确性。

2025-02-24 17:13:29 2357

原创 【Apache Paimon】概述(一)

Paimon概述

2025-02-24 16:09:47 1549

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除