数据挖掘
文章平均质量分 83
数据挖掘课程笔记
alwaysuzybai
"Serena, you're the most beautiful, amazing, alive person I've ever know."
展开
-
10月17日|实验报告|paddle paddle|概念辨析
人工智能是最宽泛的概念,是研发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。深度学习(DeepLearning,DL)是机器学习算法中最热门的一个分支,近些年取得了显著的进展,并替代了大多数传统机器学习算法。今天,多数机器学习任务都可以使用深度学习模型解决,尤其在语音、计算机视觉和自然语言处理等领域,深度学习模型的效果比传统机器学习算法有显著提升。机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。原创 2023-02-28 17:48:44 · 367 阅读 · 0 评论 -
机器学习|数学建模|数据挖掘|Data Mining|无监督分类算法|聚类分析
什么是聚类分析?聚类分析中的数据类型主要聚类分析方法分类划分方法(Partitioning Methods)分层方法基于密度的方法基于表格的方法基于模型的方法异常分析总结。原创 2023-02-18 13:39:02 · 573 阅读 · 0 评论 -
2|数据挖掘|聚类分析|k-means/k-均值算法优化目标
k-means算法,也被称为k-平均或k-均值,是一种得到最广泛应用的聚类算法。然后重新计算每个簇的平均值。的每个对象根据其与各个簇中心的距离,将它赋给。准则函数试图使生成的结果簇尽可能地。k个对象,每个对象初始地代表了。一个簇的平均值或中心。原创 2023-02-18 11:34:30 · 760 阅读 · 0 评论 -
2|数据挖掘|聚类分析|无监督聚类PAM算法(中心法划分)|肠型分析
聚类算法原创 2023-02-18 11:21:31 · 1812 阅读 · 0 评论 -
2|数据挖掘|主成分分析|模型分析与求解
R-λ1 I|=0,显然,λ1是相关系数矩阵的特征值,a1=(a11,a12,…根据第二列、第三列等可以得到类似的方程,于是λi是方程|R-λI|=0的p个根,λi为特征方程的特征根,aij是其特征向量的分量。再由主成分数学模型条件③和正交矩阵的性质,若能满足条件③最好要求A为正交矩阵,即满足AA'=I 于是,将原始数据的。根据主成分分析的数学模型的定义,要进行主成分分析,就需要根据原始数据,以及模型的。主成分分析中一个很关键的问题是如何给主成分赋予新的意义,给出合理的解释。于是,变量(x1,x2,…原创 2023-02-17 20:48:15 · 1044 阅读 · 0 评论 -
2|数据挖掘|关联规则|Association Rules|Apriori算法|Frequent-pattern tree和FP-growth算法|11.11
关联规则挖掘是数据挖掘中的一个基本工具几个常见算法 ~Apriori算法:利用一个可证明的数学性质来改进性能 ~FP-growth算法:不再生成候选项集,利用有效的数据结构 ~相关(correlation)规则:在统计学的基础上评价有趣度 ~基于约束(constrain)的关联规则挖掘Apriori算法是数据挖掘十大经典算法之一!原创 2023-02-17 14:43:44 · 430 阅读 · 0 评论 -
2|数据挖掘|关联规则理论部分|引言
(1)总共有A,B,C,D四个项集,例如{生菜,菠菜,桔子,芹菜,苹果,葡萄}是一个6项集,{薯片,沙司,披萨,蛋糕}是一个4项集;在事务数据库,关系数据库和其他信息库中的项或对象的集合之间,发现频繁模式,关联,相关或因果关系的结构。在数据集D中的可信度为c,其中c表示D中包含A的事务中也包含B的百分率,即可用条件概率。:表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度。D中同时包含A和B的事务数与只包含A的事务数的比值;(2)生菜,菠菜,桔子,芹菜,苹果,葡萄?保留满足最小可信度的规则。原创 2022-11-23 15:15:14 · 742 阅读 · 0 评论 -
2019数据挖掘
数据挖掘专业课期末考试复习要点原创 2022-12-03 15:02:40 · 155 阅读 · 0 评论 -
数据挖掘练习题|数据预处理|购物篮分析|频繁子图挖掘|根叶子内部|聚类分析
19数据挖掘原创 2023-02-05 10:00:15 · 163 阅读 · 0 评论 -
2020数据挖掘
K均值聚类将样本集合划分为k个子集,构成k个类,将n个样本分到k个类中,每个样本到其所属类的中心距离最小,每个样本仅属于一个类,这就是k均值聚类,同时根据一个样本仅属于一个类,也表示了k均值聚类是一种硬聚类算法。比如,使用渐进抽样学习一个预测模型,预测模型的准确率会随着样本容量的增加而增大,直到某一点之后趋于稳定,此时的样本容量为适合的样本容量,我们可以选取接近当前容量的其它样本,估计出与稳定点的接近程度,从而停止抽样。边界点:如果P的任一邻域内既含有属于E的点,又含有不属于E的点,那么称P为E的边界点。原创 2022-12-21 19:48:41 · 454 阅读 · 0 评论 -
数据挖掘|主成分分析|模型分析与求解
一、主成分分析二、PCA主成分分析的基本思想与数学模型(一)主成分分析的基本思想(二)主成分分析的数学模型三、主成分分析的几何解释四、主成分分析的应用五、主成分的导出六、主成分分析的计算步骤在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间常常存在一定的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上分析原创 2022-12-16 23:57:46 · 3363 阅读 · 1 评论 -
跨域推荐(Cross-Domain Recommendation)的最新综述
论文解读系列第十六篇:IJCAI 2021--跨域推荐(Cross-Domain Recommendation)的最新综述 - 知乎目录1.背景介绍(1)内容层级相关性(content-level relevance)(2)用户层级相关性(user-level relevance)(3)产品层级相关性(item-level relevance)2.综述的动机3. 不同的跨域推荐场景以及挑战场景1. 单目标跨域推荐(single-target CDR)场景2. 多领域推荐(Multi-Domain Recom原创 2022-12-05 20:57:29 · 4093 阅读 · 0 评论 -
数据属性的类型/种类
数据集由数据对象组成,一个数据对象代表一个实体。数据对象又称样本、实例、数据点或对象。属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。属性有不同类型:标称属性(nominal attribute)、二元属性(binary attribute)、序数属性(ordinal attribute)、数值属性(numerical attribute)、离散属性与连续属性。原创 2022-11-28 15:31:43 · 6345 阅读 · 0 评论