- 博客(6)
- 收藏
- 关注
原创 【文章分享】基于NLP的非结构化高维大数据时序特征提取方法
非结构化文本数据呈爆炸式增长,从非结构化高维大数据中提取有效的时间维度特征具有重要意义。因此,提出了一种基于 NLP 的非结构化高维大数据时间维度特征提取方法。通过 NLP 深度学习模型,结合关联规则挖掘技术和特征量化方法,对非结构化多维大数据的时间维度进行有效的特征提取优化。应用并行数据流重构和模糊 C 聚类算法搜索高维大数据并排列信息。基于空间框架,实现了非结构化高维大数据分析中时间视角特征提取的优化。
2025-04-16 15:23:48
781
原创 【文章分享】一种基于模型切片的分布式 LLM安全框架
分布式(联邦)大语言模型(LLM)是一种利用分散数据进行领域特定LLM协同训练的重要方法。然而,恶意从服务器或客户端窃取模型参数和数据已成为亟待解决的问题。提出了一种基于模型切片的分布式LLM安全框架。在客户端和服务器端部署了可信执行环境(TEE),并将微调结构(如LoRA或P-tuning v2的嵌入)放入TEE中。然后,通过轻量级加密在TEE和通用环境中执行安全通信。为了进一步降低设备成本并提高模型性能和准确性,提出了一种分层微调方案。
2025-02-28 16:20:40
1729
原创 【Apache Paimon】Paimon集成 Flink 引擎之DDL(二)
在 Paimon Catalog中创建的表就是Paimon的管理表,由Catalog管理。当表从Catalog中删除时,其表文件也将被删除,类似于Hive的内部表。通过配置partition.expiration-time,可以自动删除过期的分区。如果定义了主键,则分区字段必须是主键的子集。
2025-02-26 09:00:00
866
原创 【Apache Paimon】Paimon集成 Flink 引擎之环境准备(一)
jar包下载地址:https://repository.apache.org/snapshots/org/apache/paimon/paimon-flink-1.17/0.5-SNAPSHOT/上述配置需要在hive-site.xml中配置,且hive metastore服务需要重启。将flink-sql-connector-hive-3.1.3_2.12-1.17.0.jar上川到Flink的lib目录下。
2025-02-25 11:02:38
499
原创 【文章分享】创新 SQL 自动化:使用企业数据解决方案的双阶段方法评估开源大型语言模型
为了使模型适应企业环境,创建了一个自定义数据集。此过程涉及使用 GPT-3 生成合成数据,对其进行验证,并用现有报告中的数据对其进行补充,以准确反映现实世界的企业数据复杂性。提取 Schema 信息:提取了 20 个表及其关系的定义,这些表将用于 SQL 查询。生成 NL-SQL 对:使用 GPT-3 根据表定义和列描述生成 NL 查询和相应的 SQL 查询。重复此过程,直到数据集足够大。验证综合查询:检查 GPT-3 生成的查询的准确性。
2025-02-24 17:13:29
2357
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人