计算机科学与技术yai,基于Hadoop的分布式支持向量机的研究与应用-计算机科学与技术;计算机应用技术专业论文.docx...

基于Hadoop的分布式支持向量机的研究与应用-计算机科学与技术;计算机应用技术专业论文

华北电力大学硕士学位论文摘

华北电力大学硕士学位论文

摘要

随着互联网技术的高速发展,网络上的数据呈爆炸式增长,如何从海量数据中 挖掘到有意义的信息将是一个极其重要的研究方向,这使得数据挖掘在近几年内得 到了飞速发展。支持向量机(supponv_ectorMachine,SVM)是数据挖掘领域内一种

高效可信的分类算法,在解决非线性及高维模式识别问题中有突出优势。但是采用

传统的SVM处理海量数据时,其训练时间会大幅度延长,训练速度缓慢,增加了 模型的训练成本。因此,有必要对传统的SVM进行改进,使其适用于海量数据处 理,分布式并行化处理正是解决这些问题的有效方法。本文对SVM的并行化模式进行探讨,从基本思想、训练效果、实现难易度等 方面详细分析了分组、级联、反馈、混合4种支持向量机的并行策略。经过对比, 反馈式并行支持向量机(FeedbackPsvM)作为一种分布式svM的实现方式,在保

证准确率的情况下,能够有效的减少训练时间且易于理解和实现。

本文结合Hadoop的分布式存储以及并行计算的特点,设计并实现了基于 Hadoop的反馈式并行SVM,并将其用于居民用户低电压成因的诊断。实验结果表 明,反馈式并行svM与单机版svM相比,训练时间大幅减少而准确度却能基本持 平,因此有很高的研究意义和实用价值。

关键词:数据挖掘;反馈式并行支持向量机;Hadoop;低电压成因诊断

万方数据

华北电力大学硕士学位论文Abstract

华北电力大学硕士学位论文

Abstract

With the deVelopment of Internet techn0109y,it is an important issue albout how to extract Valuable information from the exploding data on the network.So that data mining has got great development in recent years.Support Vector machine(SVM)is a highly ef.fective and re“able data classification algorithm in data mining fieId,which has outstanding adVantages in solVing nonlinear and high dimensional pattern recognition problems.HoweVer,the traditional SVM is

not suitable fbr mass data processing,mainly because of the large datasets

increase the SVM train time significantly,slow training speed,and increase the cost of getting model.In order to s01Ve these problems,it is an e董董ectiVe method to distribute parallel the traditional SVM algorithm.

In this paper,the distributed paraIlelization of SVM algorithm is discussed. The existing f.our kinds ofsupport Vector machine strategies ofgrouping,cascade, feedback, mixed parallel are analysised from basic idea, training ef-fect, implementation difficulty.After compa“son,as a way of realizing distributed SVM,the f宅edback parallel support Vector machine(FeedbackPSVM)can

ef耗ctively reduce the training time,ensure accrucy and easy to understand and realize.

In this paper,we design and implement FeedbackSVM algorithm based on distributed storage and parallel computing of Hadoop which is used t

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值