数据挖掘近年来的研究方向、方法总结

ee-redbull

于 2021-11-25 20:10:28 发布

阅读量3.6k

点赞数 2

分类专栏：学习笔记文章标签： python 深度学习数据挖掘

本文链接：https://blog.csdn.net/lxh248866/article/details/121546337

版权

学习笔记专栏收录该内容

12 篇文章

订阅专栏

本文概述了数据挖掘的四个主要研究方向：基础理论、网络和图挖掘、大数据挖掘及应用。基础理论涉及规则挖掘、分类、聚类等。网络和图挖掘关注图模式和社区发现。大数据挖掘强调算法的可扩展性和多源数据融合。应用方向则展示了数据挖掘在医疗、教育、金融等领域的潜力。此外，介绍了监督学习、无监督学习等方法，以及PageRank、Apriori、C4.5等经典算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据挖掘近年来的研究方向、方法总结

一、研究方向

数据挖掘作为一个跨学科主题，它是用人工智能、机器学习、统计学和数据库交叉的方法在相对较大型的数据集中发现模式的计算过程。其目标是从数据集中提取信息并将其转换成可理解的结构，以进一步分析使用。对其的研究大致可分如下4类：

（1）基础理论研究方向

数据挖掘是一门交叉学科，因此涉及的基础理论也是多学科的基础。其包含的基础理论研究涉及到规则和模式挖掘、分类、聚类、话题学习、时间空间数据挖掘、机器学习方法，监督、非监督、半监督等方面，同时这些也是人工智能领域的相关研究。基础理论的研究一直都有人在做。

（2）网络、图的挖掘方向

当下，数据的类型有很多种，如一维信号、时序数据、二维图像数据、三维视频、多光谱、高光谱数据等，但在现实生活中，其实有很多很多不规则的数据结构，典型的就是图结构，或称拓扑结构，如社交网络、化学分子结构、知识图谱等，它是与其他维数据不同的一种数据结构。图结构的数据已经成为日常中一种非常常见的数据了，各行各业都能产生图结构的数据，而对这些数据进行分析处理就必须要用到数据挖掘技术，对网络、图结构的数据处理分析也就成为的数据挖掘的研究热点问题。

具体研究方向有：图模式挖掘、社区发现、网络聚类系数估计、网络关系挖掘、网络用户行为分析、网络信息传播、社交网络应用，社交推荐（信息、好友等）等

（3）大数据挖掘方向

算法的并行、分布式扩展、多源异构数据融合挖掘等

现今大数据挖掘与传统算法的本质区别在于算法的可扩展性。换句话说，现在研究的算法在不仅仅能处理小规模数据集，当数据增加时也具有较大范围内的适合。算法的扩展理解为两个方面：scale out-纵向扩展以及scale up-横向扩展。（1）纵向扩展最要在算法底层、良好的数据结构设计或者并行设计方面。（2）横向扩展主要指算法的分布式技术实现（自己编写分布式算法或者基于现有分布式框架实现）。这里所说的“大数据”，在不同的挖掘领域（文本、图结构、机器学习、图像）所对应的数据量是不同的。对文本来说，几百万个样本可能就是“大数据”；对机器学习来说，千万个样本，几十维、几百维（MB/GB）就是“大数据”；对大规模图挖掘来说，千万级节点、亿级边（GB），也是“大数据”；对图像数据，百万级图像（TB）完全可以称得上“大数据”。

要做算法的可扩展性一般是要用到并行技术、分布式编程技术的，但算法如果做到了极致，单台计算机也能处理“大数据”问题，比如：TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC。文章仅仅在一台计算机上利用线程并行（多核）实现了计算机集群完成的工作。有些文章是用MATLAB来完成的实验（Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process）、有些文章是利用hadoop集群来完成实验、有些是利用C/JAVA语言编写分布式程序实现、有些是利用多核CPU的多线程并行实现。可见，算法的实现方式不重要，重要的是算法具有scalability。多源数据融合以及挖掘分析也可以称得上大数据挖掘，可能不见得数据集有非常大，但是通过多种数据的融合发现了之前完成不了的事情、或者之前完成效果不好的事情。比如： heterogeneous hashing 文章用了两个异构数据集（text、image）进行relation-aware分析。特别是微软亚洲研究院在KDD’13 上的U-Air: When Urban Air Quality Inference Meets Big Data，这篇文章就是融合了5个数据集（气象数据、空气质量数据、POI数据、路网数据、轨迹数据），利用传统的数据挖掘方法进行了融合分析，得到了较好的效果并进行了商业应用。

（4）数据挖掘应用方向

作为一门交叉学科，数据挖掘技术在工程应用方面具有非常高的潜力，只要能产生数据，那么就可以进行数据挖掘知识发现。尤其在医疗、教育、金融等领域的应用前景非常广阔。信息技术正在以突飞猛进的速度向前进步，包括新传感器采集技术、移动互联网技术、社交网络技术的蓬勃发展，将带来大量的创新性应用。大数据是新时代的石油，通过研发分析各种多元结构化数据的高效技术，提高数据产品的易用性，让数据分析实现“开箱即用”，其蕴藏的巨大能量将使数据成为政府和企业建立核心竞争力的关键途径，甚至能够颠覆很多传统行业的运作方式，带领我们进入信息革命的新时代。综上，数据挖掘能够在医疗、教育、金融、企业管理、工业制造等多个行业发挥重要作用。