学习笔记(1)-数据挖掘及其应用浅谈

最新推荐文章于 2022-11-02 15:26:00 发布

锦堇年

最新推荐文章于 2022-11-02 15:26:00 发布

阅读量1.4k

点赞数 1

分类专栏：学习笔记文章标签：数据挖掘 nlp

本文链接：https://blog.csdn.net/qjc937044867/article/details/50273625

版权

本文是关于数据挖掘的学习笔记，涵盖了数据预处理、关联规则、分类技术、聚类技术和数据挖掘在NLP中的应用。讨论了数据挖掘与机器学习的关系，以及标签传播算法在社区发现中的应用。重点介绍了K-近邻、贝叶斯、决策树、SVM等分类算法，并探讨了文本分类的挑战与解决方案。

摘要由CSDN通过智能技术生成

刚刚结束数据挖掘的课程，对数据挖掘的理论与算法有了一定的了解，借此报告的机会对数据挖掘知识进行一些梳理，并对现有工作中数据挖掘的应用和存在的问题进行讨论。
一、数据挖掘知识汇总（简介）：
数据挖掘是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤，其本质是在大型的存储数据中自动的发现有用信息的过程。任务包括预测建模（分类及回归拟合）、聚类分析、关联分析、异常检测等部分。在计算机各领域中均有重要的作用。目前的研究目标是基于事实的建模和分析，在医疗、金融、安全和其它领域已有领先的应用。
1、数据预处理
为了解决数据集可能存在的不完整、含有噪声、数据不一致等问题，需要对数据进行预处理。主要包括：数据清理（处理空数据、冗余数据、离群点等）、数据集成、数据变换（规范化）、数据规约（数据压缩）以及数据的离散化。
2、关联规则及其挖掘技术
关联规则挖掘则是从事务集合中挖掘出满足支持度和置信度最低阈值要求的所有关联规则。通常的方法是寻找频繁项集进而得到频繁的规则。最经典的关联规则挖掘算法是Apriori算法，主要利用先验原理：如果一个项集是频繁项目集，那么它的非空子集必定是频繁项目集。针对Apriori算法的扫描次数多、中间项多等固有缺陷，J. Han等提出了不产生候选挖掘频繁项集的方法：FP-树算法。采用分治策略把数据库中的频集压缩进一棵频繁模式树（FP-tree）进行挖掘。
3、分类技术
分类的目的是构造一个分类函数或分类模型（分类器），该模型能把数据集中的数据项映射到某一个给定类别。因此有人将分类问题等价于监督学习。提到监督学习需要介绍一下统计学习。统计学习三要素：模型、策略与方法，其中模型的训练即为分类器的训练过程，模型的选择预评估即是分类器的选择评估。常用的分类算法有：K-近邻法、贝叶斯算法、决策树算法、LR模型、支持向量机（SVM）、人工神经网络（ANN）以及随机森林、条件随机场等。
4、聚类技术
聚类，又称为聚簇，是把一组数据实例分到子集中，其中相似的实例被分到一组，而不同的实例被分到不同的组中，与分类不同，每个对象的类别属性都是事先未知的，属于无监督学习。簇是数据对象的集合，同一簇中的对象彼此相似，而与其他簇中的对象相异。依据不同的原理对聚类算法进行分类，主要包括基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于网格的方法等。
5、几个问题：
1)数据挖掘与机器学习：
“机器学习”是人工智能的核心研究领域之一，其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能。广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”[1]，由于“经验”在计算机系统中主要是以数据的形式存在的，因此机器学习需要设法对数据进行分析。
“数据挖掘”和“知识发现”通常被相提并论，粗略