![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计学习
文章平均质量分 68
喷火龙与水箭龟
心若无异,万法如一
展开
-
泛统计理论初探——初探常见连续分布
统计学习-初探基本连续统计分布初探连续统计分布 之前文章介绍的是离散的统计分布,这些分布是从最初的概率论问题里延伸得到,比如伯努利分布、二项分布、多项分布等,其实是从实际博彩游戏里得到的一种对于随机事件发生的规律的总结,而本文将在这个基础上开始介绍连续的统计分布,在某种程度上连续分布也可以从一些实验上得到相关规律,并且连续分布和离散分布在某些情况是互相存在联系的,比如二项分布和正态分布。本文将会介绍三种连续分布,分别是均匀分布、正态分布、指数分布。&nbs原创 2021-03-27 13:47:44 · 420 阅读 · 2 评论 -
泛统计理论初探——初探常见离散分布
统计学习-再谈基本离散统计分布再谈基本离散分布 在上一篇介绍统计分布的文章里,我们简单介绍了离散分布里的几个经典分布,也就是伯努利分布、二项分布、泊松分布。在本次文章里,我们将会继续介绍另外一些比较经典的离散分布,分别是多项分布,几何分布,超几何分布,负二项分布。这几个分布和之前文章探讨过的二项分布存在某些联系,下面我们将会介绍这些分布。 首先介绍的是多项分布,这种分布其实就是二项分布的推广,因为二项分布是描述原创 2021-03-20 21:58:50 · 328 阅读 · 2 评论 -
泛统计理论初探——初探常见统计分布
统计学习-基本统计分布简介初探基本统计分布 在接触统计分布的时候,我们发现概率是一种事件发生的可能性,如果一件事情的所有可能性都能罗列出来的时候,并且在数据量很大的时候或是反复实验的时候,这些概率符合一个函数或是一种规律,那么我们就建立起事件发生的描述和事件发生的可能性的一个映射关系,这种关系其实就是统计分布函数。下面我们来介绍一些基本的分布函数,而其中的细节和思路我们会用抛硬币来进行说明。 首先介绍的是伯努利原创 2021-03-14 11:25:33 · 320 阅读 · 0 评论 -
泛统计理论初探——机器学习的欠采样算法
统计学习-经典欠采样方法简介机器学习中的欠采样方法 在之前的文章中己经介绍了重采样的方法和使用情况,本次文章将会介绍欠采样方法的原理和经典欠采样算法的步骤以及使用背景。从原理上来说,欠采样方法的思路是和重采样方法刚好相反的,因为重采样是针对数量较小的样本类别进行反复抽取或者是人工制造一些样本;而欠采样方法则是针对数量较多的样本类别进行数据的抛弃。 下面我们先来简要了解普通的欠采样方法,最简单的欠采样方法其实就是原创 2020-10-17 09:54:32 · 2784 阅读 · 2 评论 -
泛统计理论初探——机器学习的重采样算法
统计学习-经典重采样方法简介机器学习中的重采样方法 在我们之前讲过的文章里,介绍过一些抽样、采样的方法,当实际情况中由于数据本身的均衡性出现很大偏差的时候,采用之前的方法会有一些问题,比如模型过拟合或者是在抽样的数据预测的非常完美。其实这种样本的不均衡问题在实际情况中非常常见,比如信用卡欺诈的问题、垃圾邮件的问题等,如果使用传统的抽样会使得样本数据无法体现负样本的情况,所以需要使用重采样方法进行处理。 其实最简原创 2020-10-10 12:21:43 · 2029 阅读 · 0 评论 -
泛统计理论初探——初探几种简单的抽样方法
统计学习-常见的抽样方法简介几种简单的抽样方法介绍 在之前的文章中,我们介绍了一些比较通用的采样方法,本次文章中我们将会对于传统的统计调查中所用到的抽样方法进行简要介绍,目的就是帮助初学者了解随机抽样、分层抽样、整群抽样、系统抽样等方法的区别,并且通过比较这些方法可以让使用者明确抽样方法在不同情况的适用场景。 首先是随机抽样方法,这种抽样顾名思义就是完全随机的抽样,一般来说这种方法就是确定要抽取的样本总数K后,原创 2020-10-03 21:19:05 · 668 阅读 · 0 评论 -
泛统计理论初探——初探Gibbs采样
统计学习-Gibbs采样简介初探Gibbs采样方法 在上一篇文章中,我们介绍了MCMC抽样和MH抽样的方法,在本次文章中将会介绍Gibbs抽样方法,这种方法其实是基于MCMC抽样的一种优化方法,它的目标是能够在某些情况下无法得到各个特征的联合分布的时候进行使用,也就是使用Gibbs抽样在大多数实际情况的效果比较好,因为现实生活中有很多时候特征之间的分布是无法得知的,所以Gibbs抽样方法的这种通用性使得它在很多领域中被使用。 &nbs原创 2020-09-26 11:33:57 · 888 阅读 · 0 评论 -
泛统计理论初探——初探MCMC采样和MH采样
统计学习-MCMC采样与MH采样简介初探MCMC采样方法和MH采样方法 在之前介绍的文章中,我们介绍了基本的采样方法。在了解简单的采样方法后,本次文章将会介绍MCMC采样方法与优化的MH采样方法,这两种方法对于一些高维度特征的数据可以进行比较合理的采样。 MCMC采样方法其实就是蒙特卡洛马尔科夫链的采样方法,因为这两个术语的英文简写都是MC,所以我们使用MCMC采样来代替。MH采样方法的英文是Metropoli原创 2020-09-19 09:51:04 · 2986 阅读 · 0 评论 -
泛统计理论初探——初探机器学习的采样方法
统计学习-简单采样算法简介初探机器学习中基本的采样方法 在我们的学习过程中,其实之前接触过类似采样的一些领域,比如在统计调查中的抽样调查,是抽取了一部分样本进行估计来推断总体的参数。比如在通信领域的信号提取,就用到了采样来逼近真实的信号。在机器学习过程中,也经常会遇到一些需要采样的情况,当问题的模型是比较复杂的时候,可以用采样来近似逼近或者求解;或者在最初无法了解数据的整体分布时,可以通过采样来了解数据的特征,给使用者一个大概的印象。本文中我们主要介绍几种简原创 2020-09-05 09:31:03 · 717 阅读 · 0 评论 -
泛统计理论初探——GMM算法初探
统计学习-GMM算法简介高斯混合模型简介在本文中,主要是延续之前的EM算法的基础上,简单的介绍一些GMM算法,GMM算法的全称是高斯混合模型,即英文名Gaussian Mixed Model ,该算法的核心思想是用加权的方式,结合多个高斯分布去进行数据分布的逼近,其真正的意义是因为多个高斯模型的组合可以逼近任意数据的分布形式。高斯模型的形式是由两个参数决定的,即均值和标准差,当确定了这两个参数以后就可以确定当前数据的分布,而高斯混合模型正是借鉴了这一思路,通过使用多个高斯混合模型,并且用权重进行组合W原创 2020-05-10 09:33:44 · 877 阅读 · 0 评论 -
泛统计理论初探——EM算法简介
统计学习-EM算法简介EM算法简介本文将会介绍EM算法,EM算法又称为最大期望算法,EM算法的中文名称是Expectation-Maximization algorithm ,该算法是由不停迭代的期望步骤、最大化步骤反复交替形成的。从本质上来说,EM算法不是一种数据挖掘方法或者真正的机器学习算法,它属于一种求解思路,或者是一种迭代的算法。该算法是建立在极大似然方法的基础上的,它本质上是解决一...原创 2020-05-01 22:11:13 · 452 阅读 · 0 评论 -
泛统计理论初探——线性判别分析LDA简介
统计学习-线性判别分析方法简介线性判别分析方法简介LDA是常见的降维算法,全称是Linear Discriminant Analysis,即线性判别分析。这种方法和主成分分析法都是一种降维的方法,区别在于主成分分析方法是无监督方法,而LDA是一种有监督的方法。LDA的核心思想其实是将数据进行映射,把之前分布的数据映射为一簇一簇的数据,使得一簇数据内部的数据距离尽量的小,而一簇数据与另一簇数据之...原创 2020-03-21 19:29:56 · 1033 阅读 · 0 评论 -
泛统计理论初探——余弦距离简介
统计学习-余弦距离简介介绍余弦距离在衡量变量之间距离的时候,我们发现可以用欧式距离、绝对值距离,本文我们将来介绍另一种距离,即余弦距离。余弦距离在实际问题中经常用到,由于它的计算方法是把各个维度的点积相乘并相加,然后除以模长得到余弦相似度,再用1减去余弦相似度得到余弦距离,该方法和欧式距离等直接计算距离差的计算方法不同,可以较好地消除变量本身的数值大小带来的距离计算问题。余弦相似度的公式如下...原创 2020-02-20 11:02:56 · 5858 阅读 · 0 评论 -
泛统计理论初探——统计编码方法简介
统计学习-统计编码方法简介机器学习常见的编码方法简介在实际的问题中,经常会遇到自变量是分类变量的问题,比如血型、学历、职称级别、衣服型号等。在处理这些变量的时候,通常会对变量进行编码处理,使得原来的变量取值变成数学上的数字,比如0,1等数值,这样可以方便代入模型来进行实际预测和分析。在本文中,我们将介绍几种常见的编码方法,通过学习编码方法来加深机器学习中对分类变量处理的认识。常见的结构型数据...原创 2020-02-01 13:19:27 · 4914 阅读 · 0 评论 -
泛统计理论初探——因子分析方法简介
统计学习-初探因子分析方法初探因子分析在之前的文章里,我们聊了主成分分析方法,这种方法广泛应用于各种实际统计问题,可以被用来进行降维处理,减少了变量数目,并且新变量之间没有相关性。今天我们来了解一下因子分析,因子分析从本质上来说就是一种寻找多个变量之间的共同因子,如果主成分分析方法是一种变量合成的方法,那么因子分析方法就是一种提取共性变量的方法。其实因子分析这种方法最早是从教育统计来的,当时...原创 2020-01-18 23:04:12 · 1318 阅读 · 0 评论 -
泛统计理论初探——主成分分析方法简介
统计学习-主成分分析方法介绍探究主成分分析今天我们来聊聊这个主成分分析方法,主成分分析方法是一种将统计问题中的自变量进行组合,组合成新的变量后,按照使用者需求,提取出最主要的变量的一种方法。主成分分析方法是一种比较常见的统计学方法,常用于降维、特征工程等场景,在一些竞赛中使用主成分分析方法对海量的特征进行提取,合成新的维度,这样可以提高模型的可解释性,也可以提升模型的稳健性。当然,主成分分析...原创 2019-12-28 21:04:02 · 1287 阅读 · 0 评论 -
泛统计理论初探——初探特征工程
统计学习-特征工程介绍探究特征工程众所周知,特征工程是非常重要的数据挖掘步骤之一。在我们获取数据后,会首先进行数据清洗并得到一个能够分析的数据集。然后开始观察数据,并对数据做特征工程处理,因为有些模型对数据的特征属性要求较高。因此特征工程处理技巧是一个非常重要的步骤,它甚至可以影响最终数据挖掘的结果。在本文中,将会介绍几种简单的特征工程方法,比如对数压缩、特征归一化等方法。首先我们对特征也就...原创 2019-12-22 11:46:37 · 777 阅读 · 0 评论 -
泛统计理论初探——数据清洗常见技巧
统计学习-数据清洗常见技巧数据清洗的常见技巧探究在本文中,将会介绍数据清洗中的常见技巧,主要是针对在真实场景中的数据处理,比如数据竞赛、数据报告、商业分析等。数据清洗是在获取到数据后的重要步骤,通常经过清洗后的数据是可以被用于进行分析和挖掘的,而在清洗之前的数据是所谓的脏数据。常见的脏数据中,可能存在数据冗余、数据缺失、数据异常等现象。因此本文将会从上述三个角度去分析,当遇到这些问题时,应该如...原创 2019-11-30 12:38:57 · 565 阅读 · 0 评论 -
泛统计理论初探——分位数与箱型图
统计学习-分位数与箱型图认识分位数和箱型图在之前的文章中,我们介绍了基本的描述性统计变量,即低阶和高阶的描述性指标,比如均值、中位数、标准差、偏度、峰度等指标。在本文中,我们将介绍箱型图和分位数的含义以及应用,理解箱型图的构成和分位数的意义可以加深对数据分布的理解。首先我们介绍分位数这个指标,分位数从直观上理解就是某个样本在数据总体中的位置。要求解分位数必须对数据按某种维度进行排序,然后对排...原创 2019-11-22 22:58:14 · 1072 阅读 · 0 评论 -
泛统计理论初探——高阶描述统计指标
统计学习-高阶统计指标再谈描述性统计指标在上一篇文章中,我们探讨了一些最常见的统计指标:比如中位数,平均数,众数等指标。其实上一篇文章讨论的都是一阶的统计指标,即根据当前的数据能够直接计算或观察得到的指标,这种一阶指标不需要再借助其他指标去做进一步计算的。那么既然有一阶指标,就会有二阶的指标以及高阶的指标。因此在本文中,我们将会介绍几种高阶的统计指标,并阐述如何在实际情况中去使用这些指标,从而...原创 2019-11-16 20:57:03 · 967 阅读 · 0 评论 -
泛统计理论初探——浅谈基本统计指标
统计学习-基本统计指标浅谈描述性统计指标在我们对统计最早的认知中,描述性统计是我们最早接触的概念,甚至有些概念在小学就有学到。常见的统计描述指标比如:平均数、众数、中位数、方差、标准差、变异系数、偏度、峰度。理解这些指标对于初学者学习统计和理解数据都大有帮助。从传统的结构型数据来看,其实数据类型有四种:定类数据、定序数据、定距数据、定比数据。为了方便解释上述描述性指标,我们在下文中使用的数据...原创 2019-11-07 21:37:47 · 676 阅读 · 0 评论