大专计算机应用技术答辩,计算机应用技术专业硕士答辩.ppt

计算机应用技术专业硕士答辩

* 基于密度和中心点的分布式数据流聚类算法的研究 姓 名:侯杰 学 号:Y专 业:计算机应用技术 研究方向:数据挖掘与分布式计算 指导老师:高宏宾 报告内容 主要研究内容 计划步骤 对聚类算法的初步研究 高维数据流降维 后期拟完成的研究工作及进度安排 1.主要研究内容 分布式聚类算法的研究 基于密度和中心点的聚类方法研究 高维数据流的降维处理 2.计划步骤 序号 阶段及内容 起讫日期 阶段成果形式 [1] 论文全过程 2010.11-2012.04 [2] 确定研究项目,查阅相关文献资料,进行开题 2010.11-2011.01 已结束 [3] 研究分布式数据流聚类相关算法 2011.01-2011.03 研究了经典的DBSCAN、k-means算法 [4] 研究密度和中心点在分布式数据流聚类中的相关算法 2011.03-2011.06 未正式开始 [5] 高维数据流降维技术的研究 2011.06-2011.10 数据流预处理阶段已经基本结束 [6] 1.综合整理研究项目,完成算法与测试数据 2.总结项目 2011.10-2011.12 [7] 总结研究成果,完成论文 2011.12-2012.04 表1 开题报告计划表 T KPCA降维 数据 开始 高维数据? 低维数据 寻找核心对象集 过滤不符合阈 值的候选对象 寻找完毕? 广度优先算法BSF 完成 F F T 图1 论文整体流程图 3.对聚类算法的初步研究 目前已经对经典的k均值算法和DBSCAN算法做了初步研究,计划在此基础上研究基于密度和中心点的分布式聚类算法。 图2 K均值图示 图3 DBSCAN图示 4.高维数据流降维 本部分在近期占用时间较多,已经就“基于核主成分分析的数据流降维研究 ”完成期刊论文,目前正在修改中,该部分作为数据流的预处理部分在整篇论文中具有重要作用。 1.核方法 数据空间 线性操作: PCA、分类、线性回归等 非线性操作: KPCA、SVM、SVR等 核方法 特征空间 特征空间回归 到数据空间 2.核函数 3.分组的核主成分分析(GKPCA) 图4 降维方法与效果图示 对于测试结果,由于所选的数据集较小,又采取了 一个实验,对算法的性能方面没有过硬的说服力, 目前已经对该问题进行了补充。 表2 测试样例的降维结果 实例数*维数 189*13 378*13 567*13 756*13 945*13 1134*13 1323*13 PCA 189*11 378*11 567*11 756*11 945*12 1134*12 1323*12 KPCA 189*9 378*9 567*9 756*9 945*9 1134*10 1323*10 GKPCA 84*7 169*8 266*8 346*8 429*8 481*8 579*9 图5 时间消耗图 5.后期拟完成的研究工作及进度安排 重点研究“基于密度和中心点的聚类算法” 分布式环境下的数据流聚类(Hadoop) 论文的组织与撰写,计划在岁末完成论文初稿,2012年完成硕士论文毕业答辩 图6 HDFS 结构 * * * * * * * * * * * * * * * * * * *

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值