提高分布式数据挖掘效率与巴西手语识别研究
1. 分布式数据挖掘效率提升
在分布式数据挖掘领域,有多种策略可用于提升效率。一些实验表明,采用异步工作流可使效率提升 30% - 70%。同时,创建提示也能带来显著效果,能使效率提升 20% - 50%,并且在生成规则的质量上有实质性提高。
1.1 相关工作
基于代理的数据挖掘因其能处理分布式数据库而备受关注。例如 JAM 框架,多个数据站点各自使用分类代理进行数据挖掘,并通过元学习代理交换和组合分类模型。还有一种框架聚焦于在竞争和隐私受限环境中建立分布式协作数据挖掘,各数据挖掘代理使用朴素贝叶斯分类器处理自己的私有数据集。
多数具有集中控制概念的方法将其作为内部工作流的一部分,且不使用异构代理。如有的方法中,管理代理将数据划分为不相交的工作集给分析代理,分析代理完成挖掘后对是否保留其他代理的结果进行投票。
1.2 CoLe2 概念
提出了 CoLe2 概念,它围绕两个工作流循环进行基于代理的挖掘,即内部协作循环和外部调整循环。外部循环允许使用各种基于知识的策略,使控制器代理能让整个代理团队适应并专注于特定数据库和挖掘任务。实验评估显示,外部循环在大幅提高挖掘系统效率的同时,能产生与不使用外部循环时质量相当的结果。
外部循环还提供了更多使用基于知识策略的可能性,未来可将特定应用知识集成到挖掘中,也能将人类判断以建议的形式集成到控制器中。
以下是 CoLe2 工作流的简单 mermaid 流程图:
graph LR
A[开始] -->
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



