俏皮的蜗牛-CSDN博客

原创【文章分享】基于NLP的非结构化高维大数据时序特征提取方法

非结构化文本数据呈爆炸式增长，从非结构化高维大数据中提取有效的时间维度特征具有重要意义。因此，提出了一种基于 NLP 的非结构化高维大数据时间维度特征提取方法。通过 NLP 深度学习模型，结合关联规则挖掘技术和特征量化方法，对非结构化多维大数据的时间维度进行有效的特征提取优化。应用并行数据流重构和模糊 C 聚类算法搜索高维大数据并排列信息。基于空间框架，实现了非结构化高维大数据分析中时间视角特征提取的优化。

2025-04-16 15:23:48 781

原创【文章分享】一种基于模型切片的分布式 LLM安全框架

分布式（联邦）大语言模型（LLM）是一种利用分散数据进行领域特定LLM协同训练的重要方法。然而，恶意从服务器或客户端窃取模型参数和数据已成为亟待解决的问题。提出了一种基于模型切片的分布式LLM安全框架。在客户端和服务器端部署了可信执行环境（TEE），并将微调结构（如LoRA或P-tuning v2的嵌入）放入TEE中。然后，通过轻量级加密在TEE和通用环境中执行安全通信。为了进一步降低设备成本并提高模型性能和准确性，提出了一种分层微调方案。

2025-02-28 16:20:40 1729

原创【Apache Paimon】Paimon集成 Flink 引擎之DDL（二）

在 Paimon Catalog中创建的表就是Paimon的管理表，由Catalog管理。当表从Catalog中删除时，其表文件也将被删除，类似于Hive的内部表。通过配置partition.expiration-time，可以自动删除过期的分区。如果定义了主键，则分区字段必须是主键的子集。

2025-02-26 09:00:00 866

原创【Apache Paimon】Paimon集成 Flink 引擎之环境准备（一）

jar包下载地址：https://repository.apache.org/snapshots/org/apache/paimon/paimon-flink-1.17/0.5-SNAPSHOT/上述配置需要在hive-site.xml中配置，且hive metastore服务需要重启。将flink-sql-connector-hive-3.1.3_2.12-1.17.0.jar上川到Flink的lib目录下。

2025-02-25 11:02:38 499

原创【文章分享】创新 SQL 自动化：使用企业数据解决方案的双阶段方法评估开源大型语言模型

为了使模型适应企业环境，创建了一个自定义数据集。此过程涉及使用 GPT-3 生成合成数据，对其进行验证，并用现有报告中的数据对其进行补充，以准确反映现实世界的企业数据复杂性。提取 Schema 信息：提取了 20 个表及其关系的定义，这些表将用于 SQL 查询。生成 NL-SQL 对：使用 GPT-3 根据表定义和列描述生成 NL 查询和相应的 SQL 查询。重复此过程，直到数据集足够大。验证综合查询：检查 GPT-3 生成的查询的准确性。

2025-02-24 17:13:29 2357