2020数据挖掘

alwaysuzybai

已于 2023-02-16 21:45:59 修改

阅读量438

点赞数 1

分类专栏： # 数据挖掘文章标签：数据挖掘数据库人工智能

于 2022-12-21 19:48:41 首次发布

本文链接：https://blog.csdn.net/m0_57656758/article/details/128072980

版权

数据挖掘专栏收录该内容

13 篇文章 0 订阅

订阅专栏

6.决策树中包含三种结点：根结点，内部结点，叶结点。

7.k均值和DBSCAN

8.傅立叶变换：映射数据到新的空间的方法。

9.特征选择的标准方法：嵌入、过滤、包装。

10.组合ensemble：通过聚集多个分类器的预测来提高分类准确率的技术。

11.常见算法种类以及示例

12.KNN分类方法可以较好地避免样本的不平衡问题。

13.检测一元正态分布中的离群点，属于异常检测中的基于统计方法的离群点检测。

14.AI的英文全称是：Artificial Intelligence

15.渐进抽样：在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法。

16.各种分类器

17.可视化时间空间数据的技术：等高线图、曲面图、矢量场图。

18.按箱平均值平滑方法

19.数据预处理的方法：变量代换、离散化、聚集（集成）、维度规约、数值规约等。

1. 数据预处理：

数据预处理：将原始数据进行集成、变换、维度规约、数值规约。

数据流挖掘：从数据流中提取“有用”的信息，过滤掉“不想要/无用的信息” 。【大数据】四、数据流挖掘（布隆过滤、矩估计）_ywm_up的博客-CSDN博客_数据流挖掘

频繁模式挖掘：关联规则；频繁模式：频繁出现在数据集中的模式；

数据分析、数据挖掘的本质_conggova的博客-CSDN博客

2.购物篮分析属于关联分析

3.数据的属性类型：

数据属性类型_Vicky_ding的博客-CSDN博客_数据属性

A.区间标度变量(interval-scaled variables)

B.二元变量(binary variables)

C.标称型、序数型和比例型变量(Nominal、ordinal、and ratio variables)

D.混合类型变量(variables of mixed types)

4.频繁子图挖掘：

频繁模式(frequent pattern)是频繁地出现在数据集中的模式（如项集、子序列或子结构），一个子结构可能涉及不同的结构形式，如子图、子树或子格，它可能与项集或子序列结合在一起。如果一个子结构频繁地出现，则称它为频繁结构模式(FSM)。

频繁子图挖掘：在图集合中发现一组公共子结构；

频繁子集挖掘：

频繁项挖掘：频繁项 (frequent item)：当项目集 $A$ 在数据集 $D$ 中的支持度大于或等于最小支持度阈值时，那么项目集 $A$ 在数据集 $D$ 中是频繁项。

5.决策树

冗余属性不会对决策树的准确率造成不利的影响；

子树可能在决策树中重复多次；

决策树算法对于噪声的干扰不敏感；

寻找最佳决策树是NP完全问题；

决策树算法对于噪声的干扰具有相当好的鲁棒性（适应性），采用避免过分拟合的方法之后尤其如此。

决策树模型：模型是树状的，在每个结点处进行“决策”，将数据集按照最具有“决定性”的特征进行划分，直到每个分支下的数据属于同一类型或具有相同的特征。

6.决策树中包含三种结点：根结点，内部结点，叶结点。

机器学习基础（二）：决策树_Cherrie3的博客-CSDN博客

决策树的优点主要有：
1、可以快速建立模型，分类速度也非常快；
2、算法容易理解，对于很多简单的数据集，决策树的准确率可以与其他分类算法媲美；
3、当训练样本大小足够时，决策树算法对于噪声的干扰具有相当好的鲁棒性，尤其是在采用避免过拟合的方法之后；
4、冗余属性不会对决策树产生影响。
同时，它的缺点是：
1、单决策树容易产生过拟合的问题；
2、ID3决策树不能处理连续型特征；
3、数据集中包含过多的不相关特征、子树的多次重复都会导致决策树模型过于庞大。
对于这些，CART树能够处理连续型特征，稍作修改还能够处理回归问题；过拟合可以通过组合方法（如boosting、bagging）来解决，模型的泛化能力和学习能力都非常出众……总之，以决策树为基础的许多树形模型在机器学习和数据挖掘中有着无可取代的重要地位。

7.k均值和DBSCAN

DBSCAN是一种基于密度的空间聚类算法，是一种无监督的ML聚类算法。它可以替代KMeans和层次聚类等流行的聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

K均值聚类（k-means）是基于样本集合划分的聚类算法。K均值聚类将样本集合划分为k个子集，构成k个类，将n个样本分到k个类中，每个样本到其所属类的中心距离最小，每个样本仅属于一个类，这就是k均值聚类，同时根据一个样本仅属于一个类，也表示了k均值聚类是一种硬聚类算法。

K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念。

K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇。

K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。

8.傅立叶变换：映射数据到新的空间的方法。

特征加权：不同的变量可能是在不同的宏观尺度上对网络进行影响的，所以作归一化或者加权是有其数学意义的。

如何在聚类时对特征加权重 - 知乎

渐进抽样：在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是渐进抽样。

举个例子：
比如，使用渐进抽样学习一个预测模型，预测模型的准确率会随着样本容量的增加而增大，直到某一点之后趋于稳定，此时的样本容量为适合的样本容量，我们可以选取接近当前容量的其它样本，估计出与稳定点的接近程度，从而停止抽样。

渐进抽样_YJ语的博客-CSDN博客_渐进抽样

维度归约：特征的提取和组合。

维度归约_糖葫芦君的博客-CSDN博客_维度规约

维度规约（特征的提取和组合） - 简书

9.特征选择的标准方法：嵌入、过滤、包装。

10.组合ensemble：通过聚集多个分类器的预测来提高分类准确率的技术。

聚集aggregate：聚集(Aggregation)是一种特殊形式的关联。聚集表示类之间的关系是整体与部分的关系。一辆轿车包含四个车轮、一个方向盘、一个发动机和一个底盘,这是聚集的一个例子。在需求分析中,"包含"、"组成"、"分为……部分"等经常设计成聚集关系。

合并combination：结合、归集到一起。

机器学习-数据科学库 06 数据的合并和分组_eddiechen10081的博客-CSDN博客_机器学习数据合并

投票voting：少数服从多数，是一种遵循少数服从多数原则的集成学习模型，通过多个模型的集成降低方差，从而提高模型的鲁棒性和泛化能力。

https://zhuanlan.zhihu.com/p/364933751

Day07-集成学习-机器学习-投票法(DataWhale)_liying_tt的博客-CSDN博客_机器学习一致性投票

11.常见算法种类以及示例

常见的聚类算法：基于层次的BRICH聚类算法、基于原型的k-means、DBSCAN：基于密度的空间聚类算法、谱聚类、GMM高斯混合模型。

六种常见聚类算法_TingXiao-Ul的博客-CSDN博客_聚类算法

五种常见的聚类算法总结_CVplayer111的博客-CSDN博客_聚类算法

常见的分类器算法：如K近邻（KNN）、决策树、朴素贝叶斯、逻辑回归、支持向量机、随机森林。

机器学习中常见的六种分类算法（附Python源码+数据集）_lyc2016012170的博客-CSDN博客

常见的关联分析算法：Aprior 算法、FP-G（Frequent Pattern Growth，频繁模式增长树）算法、FreeSpan 算法及prefixspan 算法等。

关联规则挖掘算法就是从事务数据库，关系数据库或其他信息存储中的大量数据的项集之间发现频繁出现的模式、关联和相关性。关联算法在科学数据分析、雷达信号分选、分类设计、捆绑销售、生物信息学、医疗诊断及网页挖掘等领域成果颇丰。

常见的特征选择算法：嵌入式、过滤式、包装式/包裹式。

常用的特征选择算法介绍_chenpe32cp的博客-CSDN博客_特征选择算法

12.KNN分类方法可以较好地避免样本的不平衡问题。

13.检测一元正态分布中的离群点，属于异常检测中的基于统计方法的离群点检测。

14.AI的英文全称是：Artificial Intelligence

15.渐进抽样：在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法。

16.各种分类器

C4.5:基于规则的分类器，是使用一组"if…then…"规则来对数据进行分类的技术。

机器学习（十二）-基于规则的分类器_Blessy_Zhu的博客-CSDN博客_基于规则的分类器

KNN：基于实例。

knn原理介绍以及构建一个KNN分类器来进行图像分类_xufabing1993的博客-CSDN博客_knn模型分类器的设计

Naive Bayes：基于朴素贝叶斯公式、条件独立性假设、已有的数据。

朴素贝叶斯分类器（Naive Bayesian Classifier）_蓝色枫魂的博客-CSDN博客_朴素贝叶斯分类器

ANN：一种神经网络分类算法。

详解ANN-爱码网

17.可视化时间空间数据的技术：等高线图、曲面图、矢量场图。

18.按箱平均值平滑方法

19.数据预处理的方法：变量代换、离散化、聚集（集成）、维度规约、数值规约等。

估计选漏值：考虑一个具有许多相似点的数据集，与具有遗漏值的点的邻近的点的属性值常常可以用来估计遗漏的值，如果属性是连续的，则可以使用最近邻的平均属性值；如果是分类的，则可以去最近邻中最常出现的属性值。

数据的质量——巧妇难为无米之炊_芒骁的博客-CSDN博客_“巧妇难为无米之炊”,要坚持做好数据管理工作

20.各种点

边界点：

边界点：如果P的任一邻域内既含有属于E的点，又含有不属于E的点，那么称P为E的边界点。E的边界点P可能属于E，也可能不属于E。

质心：

质量中心简称质心，指物质系统上被认为质量集中于此的一个假想点。

离群点：

离群点是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。

核心点：

中心、重点。

核心点,core point,音标,读音,翻译,英文例句,英语词典

21.目前两种流行、有效的、有损数据压缩方法：小波变换和主成分分析PCA。

22.决策树对噪声数据有很好的健壮性且能学习析取表达式。

23.两个数理统计最基本的方法是回归分析和分类分析。

24.模糊数学由扎徳(L.A.Zadeh)等人于1965年提出。

25.协同过滤算法包括：基于记忆的协同过滤和基于模型的协同过滤两种。

26.维归约常用的线性技术有主成分分析和奇异值分解。

27.分类模型的误差大致分为两种：训练误差和泛化误差。

28.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

29.数据挖掘的预测建模任务主要包括分类和回归。

30.聚类分析：聚类分析是指把一个给定的数据集分成不同的类或簇。

将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析方法的过程。

可爱冬日图集，重芝士蛋糕上像雪一样的奶油，有圣诞小雪人和木屋🏡～

alwaysuzybai

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2020数据挖掘

K均值聚类将样本集合划分为k个子集，构成k个类，将n个样本分到k个类中，每个样本到其所属类的中心距离最小，每个样本仅属于一个类，这就是k均值聚类，同时根据一个样本仅属于一个类，也表示了k均值聚类是一种硬聚类算法。比如，使用渐进抽样学习一个预测模型，预测模型的准确率会随着样本容量的增加而增大，直到某一点之后趋于稳定，此时的样本容量为适合的样本容量，我们可以选取接近当前容量的其它样本，估计出与稳定点的接近程度，从而停止抽样。边界点：如果P的任一邻域内既含有属于E的点，又含有不属于E的点，那么称P为E的边界点。
复制链接

扫一扫

专栏目录