数据挖掘近年来的研究方向、方法总结

数据挖掘近年来的研究方向、方法总结

一、研究方向

数据挖掘作为一个跨学科主题,它是用人工智能、机器学习、统计学和数据库交叉的方法在相对较大型的数据集中发现模式的计算过程。其目标是从数据集中提取信息并将其转换成可理解的结构,以进一步分析使用。对其的研究大致可分如下4类:

(1)基础理论研究方向

数据挖掘是一门交叉学科,因此涉及的基础理论也是多学科的基础。其包含的基础理论研究涉及到规则和模式挖掘、分类、聚类、话题学习、时间空间数据挖掘、机器学习方法,监督、非监督、半监督等方面,同时这些也是人工智能领域的相关研究。基础理论的研究一直都有人在做。

(2)网络、图的挖掘方向

当下,数据的类型有很多种,如一维信号、时序数据、二维图像数据、三维视频、多光谱、高光谱数据等,但在现实生活中,其实有很多很多不规则的数据结构,典型的就是图结构,或称拓扑结构,如社交网络、化学分子结构、知识图谱等,它是与其他维数据不同的一种数据结构。图结构的数据已经成为日常中一种非常常见的数据了,各行各业都能产生图结构的数据,而对这些数据进行分析处理就必须要用到数据挖掘技术,对网络、图结构的数据处理分析也就成为的数据挖掘的研究热点问题。

具体研究方向有:图模式挖掘、社区发现、网络聚类系数估计、网络关系挖掘、网络用户行为分析、网络信息传播、社交网络应用,社交推荐(信息、好友等)等

(3)大数据挖掘方向

算法的并行、分布式扩展、多源异构数据融合挖掘等

现今大数据挖掘与传统算法的本质区别在于算法的可扩展性。换句话说,现在研究的算法在不仅仅能处理小规模数据集,当数据增加时也具有较大范围内的适合。算法的扩展理解为两个方面:scale out-纵向扩展以及scale up-横向扩展。(1)纵向扩展最要在算法底层、良好的数据结构设计或者并行设计方面。(2)横向扩展主要指算法的分布式技术实现(自己编写分布式算法或者基于现有分布式框架实现)。这里所说的“大数据”,在不同的挖掘领域(文本、图结构、机器学习、图像)所对应的数据量是不同的。对文本来说,几百万个样本可能就是“大数据”;对机器学习来说,千万个样本,几十维、几百维(MB/GB)就是“大数据”;对大规模图挖掘来说,千万级节点、亿级边(GB),也是“大数据”;对图像数据,百万级图像(TB)完全可以称得上“大数据”。

要做算法的可扩展性一般是要用到并行技术、分布式编程技术的,但算法如果做到了极致,单台计算机也能处理“大数据”问题,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC。 文章仅仅在一台计算机上利用线程并行(多核)实现了计算机集群完成的工作。有些文章是用MATLAB来完成的实验(Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process)、有些文章是利用hadoop集群来完成实验、有些是利用C/JAVA语言编写分布式程序实现、有些是利用多核CPU的多线程并行实现。可见,算法的实现方式不重要,重要的是算法具有scalability。多源数据融合以及挖掘分析也可以称得上大数据挖掘,可能不见得数据集有非常大,但是通过多种数据的融合发现了之前完成不了的事情、或者之前完成效果不好的事情。比如: heterogeneous hashing 文章用了两个异构数据集(text、image)进行relation-aware分析。特别是微软亚洲研究院在KDD’13 上的U-Air: When Urban Air Quality Inference Meets Big Data,这篇文章就是融合了5个数据集(气象数据、空气质量数据、POI数据、路网数据、轨迹数据),利用传统的数据挖掘方法进行了融合分析,得到了较好的效果并进行了商业应用。

(4)数据挖掘应用方向

作为一门交叉学科,数据挖掘技术在工程应用方面具有非常高的潜力,只要能产生数据,那么就可以进行数据挖掘知识发现。尤其在医疗、教育、金融等领域的应用前景非常广阔。信息技术正在以突飞猛进的速度向前进步,包括新传感器采集技术、移动互联网技术、社交网络技术的蓬勃发展,将带来大量的创新性应用。大数据是新时代的石油,通过研发分析各种多元结构化数据的高效技术,提高数据产品的易用性,让数据分析实现“开箱即用”,其蕴藏的巨大能量将使数据成为政府和企业建立核心竞争力的关键途径,甚至能够颠覆很多传统行业的运作方式,带领我们进入信息革命的新时代。综上,数据挖掘能够在医疗、教育、金融、企业管理、工业制造等多个行业发挥重要作用。

二、研究方法

数据挖掘的方法包括监督学习、无监督学习、半监督学习、强化学习等。监督学习方法有分类、估计、预测等,无监督学习方法有聚类、关联规则分析等。除了以上方法外还有遗传算法、决策数、粗集方法等。

常用经典算法有:

  • 连接分析:PageRank

  • 关联分析:Apriori

  • 分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART

  • 聚类算法:K-Means,EM

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ee-redbull

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值