多元统计分析
文章平均质量分 97
xia ge tou lia
致力于数据分析行业~
展开
-
多元统计分析——聚类分析——鸢尾花数据集在K-均值、层次、DBSCAN上的比较
鸢尾花数据集是非常经典的数据集,常被用来数据挖掘初学者进行数据探索,本文基于鸢尾花数据集分别进行K-均值聚类、层次聚类、DBSCAN(密度聚类),比较这三类算法的区别。一、K-均值聚类关于K-均值聚类算法的详细介绍可见《多元统计分析——聚类分析——K-均值聚类(K-中值、K-众数)》。二、层次聚类关于层次聚类算法的详细介绍可见《多元统计分析——聚类分析——层次聚类》。三、DBSCAN(密度聚类)关于DBSCAN(密度聚类)聚类算法的详细介绍可见《多元统计分析——聚类分析——DBSCA原创 2020-08-23 15:57:41 · 6089 阅读 · 0 评论 -
多元统计分析——聚类分析——K-均值聚类应用场景
在《多元统计分析——聚类分析——K-均值聚类(K-中值、K-众数)》当中,我们理解了K-均值聚类的原理,也简单的介绍了K-均值聚类的两个应用场景:发现异常情况:如果不对数据进行任何形式的转换,只是经过中心标准化或级差标准化就进行快速聚类,会根据数据分布特征得到聚类结果。这种聚类会将极端数据单独聚为几类。这种方法适用于统计分析之前的异常值剔除,对异常行为的挖掘,比如监控银行账户是否有洗钱行为、监控POS机是有从事套现、监控某个终端是否是电话卡养卡客户等等。 将个案数据做划分:出于客户细分目的的聚类分析一原创 2020-08-16 21:40:12 · 6122 阅读 · 0 评论 -
多元统计分析——聚类分析——DBSCAN(基于密度的聚类)
聚类方法 适用场景 代表算法 优点 缺陷 延伸 层次聚类 小样本数据 - 可以形成类相似度层次图谱,便于直观的确定类之间的划分。 该方法可以得到较理想的分类 难以处理大量样本 基于划分的聚类 大样本数据 K-means算法 是解决聚类问题的一种经典算法,简单、快速,复杂度为O(N) 对处理大数据集,该算法保持可伸缩性和高效率 当簇近似为高斯分布时,它的效果较好 .原创 2020-08-23 00:13:54 · 6488 阅读 · 0 评论 -
多元统计分析——泰勒展开式
一、理解泰勒公式的由来及意义——一元函数的展开式问题:一个简单的三角函数,现在要求当时的函数值。如果不借助计算机,要怎么求这个值呢?泰勒的思路是:用多项式函数去近似拟合三角函数。在回归分析中,我们以多项式函数拟合数据集,多项式的“项”越多,对数据集的拟合程度越好,如下图。于是这个问题就转换为求解一个多项式函数(“项”的个数越多拟合越好,可以无穷大),让这个多项式函数无限地和三角函数或者其他我们需要的函数等价。推导过程如下:我们定义,我们塑造一个多项式函数:,其中为误...原创 2020-07-09 15:18:27 · 3545 阅读 · 1 评论 -
多元统计分析——聚类分析——K-均值聚类(K-中值、K-众数)
聚类方法 适用场景 代表算法 优点 缺陷 延伸 层次聚类 小样本数据 - 可以形成类相似度层次图谱,便于直观的确定类之间的划分。 该方法可以得到较理想的分类 难以处理大量样本 基于划分的聚类 大样本数据 K-means算法 是解决聚类问题的一种经典算法,简单、快速,复杂度为O(N) 对处理大数据集,该算法保持可伸缩性和高效率 当簇近似为高斯分布时,它的效果较好 .原创 2020-07-01 19:03:20 · 20073 阅读 · 3 评论 -
多元统计分析——聚类分析——层次聚类
聚类方法 适用场景 代表算法 优点 缺陷 延伸 层次聚类 小样本数据 - 可以形成类相似度层次图谱,便于直观的确定类之间的划分。 该方法可以得到较理想的分类 难以处理大量样本 基于划分的聚类 大样本数据 K-means算法 是解决聚类问题的一种经典算法,简单、快速,复杂度为O(N) 对处理大数据集,该算法保持可伸缩性和高效率 当簇近似为高斯分布时,它的效果较好 .原创 2020-06-30 12:31:52 · 33395 阅读 · 9 评论 -
多元统计分析——分类分析——贝叶斯分类
一、两分类问题1、贝叶斯分类1.1、分类规则和代表两个总体,各自的先验概率为和(),和分别是总体和中的概率密度函数。和代表按分类规则划分的两组区域。例如,如果一个新观测对象分到,那么我们声明该样本来自总体,。 和 是整个空间的分割。是“我们将样本分为然而实际上它来自 ”的条件概率:,类似的,,具体分布如下图所示。进而我们可以推导总错分率 (TPM):(观测对象被错分到)=(观测对象被错分到)=记是错误地将来自总体的观测对象错分到的代价/成本,类似可定义是错误地..原创 2020-06-04 18:57:01 · 6477 阅读 · 1 评论 -
多元统计分析——分类分析——基于Fisher线性判别分析(LDA)的分类
一、两分类问题1、LDA分类2、贝叶斯分类三、多分类问题原创 2020-06-03 16:04:14 · 7500 阅读 · 1 评论 -
多元统计分析——欧式距离和马氏距离
在一元的情形中,定义两个点和之间的距离:两者作差的绝对值,我们称为欧式距离。 经过标准化的作差绝对值,我们称为统计距离,或者标准化过后的距离。其中,代表样本的标准差。在多元的情形中,假设我们有两个维向量和如上面的定义,和相当于维空间中的两个点。我们也有两种方法定义两个点之间的距离。一、欧式距离(Euclidean distance)/范数欧式距离的计算公式如下:直观的理解即为:每个分量之间的差异的平方和,再开根号。缺陷:1、没有考虑到不同变量(维度)变化的尺度不同。例原创 2020-05-19 18:50:05 · 11894 阅读 · 0 评论 -
多元统计分析——数据降维——Fisher线性判别分析(LDA)
一、LDA的思想LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。二、LDA vs PCALDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。 ..原创 2020-05-20 16:14:53 · 13518 阅读 · 2 评论 -
线性代数——柯西不等式
一、柯西不等式1、基本介绍设,,其中,则,取等时,,即。2、证明取向量,。因为原创 2020-05-17 19:21:08 · 8497 阅读 · 0 评论 -
线性代数——线性变换——旋转矩阵(泰勒公式、虚数、欧拉公式)
设点离坐标原点距离,与轴夹角,将点绕原点逆时针旋转,旋转之后点的坐标为。显然与原点距离不变,仍然为。显然如下关系成立:整理得到:把上面这两个方程写成矩阵形式:所以,只要用上面这个矩阵作用在一个矢量上,就会得到旋转之后的矢量。因此,这个矩阵就代表了把矢量逆时针旋转的旋转操作。【扩充】证明,证明:分成2个部分:1)、泰勒公式证明(当时,)泰勒公式:虚数部分:...根据,我们可以将做下变换,结果如下:;.原创 2020-05-08 19:10:43 · 13534 阅读 · 1 评论 -
线性代数——韦达定理、矩阵行列式、矩阵的迹、矩阵特征值及关系
一、韦达定理回顾对于一元二次方程(且),设两个根为,。则:且易得到:,以上定理交代了两根之和(积)与方程系数的关系。依次类推:对于一元三次方程,设三个根为,,。易得到:,故对于一元次的方程,我们可以表示为,其中代表第次项的系数,代表常数项。则,二、矩阵的特征值及特征向量回顾以下知识点来自吴传生主编的《线性代数》【知识点1】:设是阶方阵,如果标量和...原创 2020-05-05 22:55:29 · 24911 阅读 · 2 评论