统计学补充概念
丰。。
某top数据科学专业博士研究生,发表多篇论文,CCFA类2篇,sci2区一篇,目前担任sci2区文章审稿人,均为深度学习领域,第一作者,五次国际级获奖经历,国家级大创四项,多次省级校级获奖经历,负责多项科研项目。希望大佬们多多提携,小弟定投桃报李。
展开
-
统计学补充概念19-交叉验证
交叉验证的基本思想是将可用的数据分成两个部分:一个用于模型的训练(训练集),另一个用于模型的评估(测试集)。其他常见的交叉验证技巧包括留一交叉验证(Leave-One-Out Cross-Validation,LOOCV)和随机划分交叉验证(Stratified K-Fold Cross-Validation),它们适用于不同的情境和数据集大小。其主要目的是评估模型在未见过的数据上的泛化能力,即模型在新数据上的表现如何,而不仅仅是在训练数据上的性能。计算K次评估指标的平均值,作为模型的最终性能评估。原创 2023-09-02 08:32:06 · 275 阅读 · 0 评论 -
统计学补充概念18-非线性决策边界
一种常见的方法是使用核函数,例如径向基函数(Radial Basis Function,RBF)核,来将数据映射到一个高维空间中,从而使其在高维空间中变得线性可分。这允许我们在原始特征空间中使用一个非线性决策边界。在某些情况下,数据可能不适合通过线性决策边界来分割。对于这种情况,我们可以使用非线性决策边界,这通常需要使用更复杂的模型来捕捉数据的复杂关系。原创 2023-08-27 12:01:46 · 241 阅读 · 0 评论 -
统计学补充概念-17-线性决策边界
在训练分类模型时,目标是找到合适的权重和偏置项,使得决策边界能够最好地将不同类别的样本分开。一些机器学习算法,如逻辑回归、支持向量机等,就是在不同约束和优化目标下寻找合适的决策边界参数。线性决策边界是一个用于分类问题的线性超平面,可以将不同类别的样本分开。在二维空间中,线性决策边界是一条直线,将两个不同类别的样本分隔开来。对于更高维的数据,决策边界可能是一个超平面。原创 2023-08-27 12:00:22 · 287 阅读 · 0 评论 -
统计学补充概念-16-支持向量机 (SVM)
SVM的主要目标是找到一个最优的超平面,可以将不同类别的数据样本分开,同时使得支持向量(离超平面最近的样本点)与超平面之间的间隔最大化。SVM引入了“软间隔”概念,允许一些样本位于超平面的错误一侧。为了处理这种情况,SVM引入了“松弛变量”来调整样本允许违反间隔边界的程度。SVM还有一个重要的概念,即“支持向量”,它是离超平面最近的样本点。核技巧与非线性情况:SVM还可以通过“核技巧”来处理非线性问题。线性可分情况:如果数据可以在特征空间中被一个超平面完美地分开,SVM会寻找最大化类别之间间隔的超平面。原创 2023-08-27 11:55:09 · 858 阅读 · 0 评论 -
统计学补充概念-15-k -最近邻(kNN)
在这种算法中,当要预测新样本的标签或数值时,它会查找与该样本最接近的训练集中的k个邻居,并根据这些邻居的标签(分类问题)或数值(回归问题)来进行预测。kNN的基本思想是,与目标样本距离更近的邻居具有更大的影响力。在回归问题中,kNN会计算k个最近邻居的平均值或加权平均值,作为预测的数值。较小的k值可能会使模型对噪声更敏感,而较大的k值可能会使决策边界更平滑。权重方案(仅用于回归问题):对于回归问题,可以选择赋予不同的最近邻居不同的权重,以便更接近目标样本的邻居具有更大的影响力。原创 2023-08-27 11:50:45 · 385 阅读 · 0 评论 -
统计学补充概念-14-LDA线性判别分析
线性判别分析(Linear Discriminant Analysis,LDA)是一种用于降维和分类的统计方法。与名称中的“线性”相关,LDA的主要目标是在保持类别信息的同时,通过线性变换将数据投影到一个低维子空间中。目标:LDA的主要目标是找到一个投影,将数据从原始特征空间投影到一个新的低维子空间,使得类别之间的差异最大化,同时类内的差异最小化。输出:LDA产生的是一组线性判别函数,可以用于分类。逻辑回归则输出样本属于某个类别的概率。假设:LDA假设类别的协方差矩阵相等,这称为“同方差假设”。原创 2023-08-27 11:42:54 · 207 阅读 · 0 评论 -
统计学补充概念-13-逻辑回归
逻辑回归的基本思想是,通过一个线性组合的方式将输入特征与权重相乘,然后通过一个称为“逻辑函数”或“Sigmoid函数”的激活函数将结果映射到一个0到1之间的概率值。逻辑回归(Logistic Regression)实际上是一种用于解决分类问题的统计学习方法,尽管其名称中带有"回归"一词,但它主要用于处理分类任务。需要注意的是,尽管逻辑回归在名称上与线性回归类似,但它们是不同的方法。线性回归用于解决回归问题,旨在预测连续数值输出,而逻辑回归用于分类问题,预测的是概率或离散的类别输出。模型会尝试寻找一组权重。原创 2023-08-27 11:40:21 · 856 阅读 · 0 评论 -
统计学补充概念12-mds
多维缩放(Multi-Dimensional Scaling,MDS)是一种经典的降维技术,用于将高维数据降维到低维空间中,同时尽量保留数据点之间的距离关系。MDS的核心思想是,尽可能在降维后的低维空间中重构原始数据点之间的距离或相似度。这可以通过找到一个在低维空间中的表示,使得在原始高维空间中的距离与在低维空间中的距离尽可能一致。非度量MDS:非度量MDS不要求精确地重建原始数据点之间的距离,而是在低维空间中找到一个表示,使得在低维空间中的排序或秩次与原始数据点之间的排序关系相似。原创 2023-08-22 11:05:21 · 189 阅读 · 0 评论 -
统计学补充概念11-tsne
t-SNE(t-distributed Stochastic Neighbor Embedding)是一种非线性降维技术,用于可视化高维数据在低维空间中的分布。与主成分分析(PCA)等线性降维方法不同,t-SNE专注于保留数据点之间的局部相似性关系,使得在降维后的空间中相似的数据点更加靠近,而不一定考虑全局结构。t-SNE的核心思想是,在高维空间中,使用概率分布来表示数据点之间的关系,然后在低维空间中构建一个类似的概率分布,使得两个空间中的分布尽可能相似。原创 2023-08-22 11:02:06 · 120 阅读 · 0 评论 -
统计学补充概念10-PCA主成分分析
它通过线性变换将原始数据投影到新的坐标系中,使得新坐标系的方差最大化,从而捕捉数据中的主要变化模式。然后,找到下一个方向,使得投影数据在这个新方向上的方差最大化,同时与前一个方向正交。特征向量表示主成分的方向,而特征值表示数据在对应方向上的方差。选择主成分:根据特征值的大小,选择要保留的主成分数量。通常,选择特征值最大的前几个主成分,以保留数据中最大的方差。计算协方差矩阵:计算标准化后的数据的协方差矩阵,以评估不同维度之间的关系。投影数据:将原始数据投影到所选择的主成分上,得到降维后的数据。原创 2023-08-22 11:00:27 · 124 阅读 · 0 评论 -
统计学补充概念09-集群统计
聚类分析:聚类分析是一种数据分析方法,用于将相似的数据点分成不同的群组,即聚类。聚类分析的目标是在不需要预先知道类别标签的情况下,找到数据中的隐藏模式和结构。通过将相似的数据点放在同一个聚类中,聚类分析可以帮助揭示数据集的内在结构。"集群统计"这个术语在统计学和数据分析中并没有一个特定的标准含义,因此它可以有多种解释。统计分组:统计分组是指将数据根据某种特定的规则或条件进行分组,然后对每个组进行统计分析。统计分组通常用于探索数据集中的不同特征、变量或条件之间的关系。原创 2023-08-22 10:58:46 · 150 阅读 · 0 评论 -
统计学补充概念08-kmeans
K均值(K-Means)是一种常用的聚类算法,用于将数据集分成预先指定数量的聚类。K均值的目标是将数据点分配到K个聚类中,使得每个数据点都属于距离其最近的聚类中心。重复步骤3和4:重复执行分配和更新步骤,直到聚类中心不再明显变化,或者达到预定的迭代次数。更新聚类中心:计算每个聚类中的数据点的平均值,将其作为新的聚类中心。初始化聚类中心:从数据集中随机选择K个数据点作为初始聚类中心。分配数据点:将每个数据点分配到距离其最近的聚类中心所在的聚类。选择聚类数量K:首先需要选择要形成的聚类数量K。原创 2023-08-22 10:57:09 · 70 阅读 · 0 评论 -
统计学补充概念07-比较树
紧密度和分离度:在树状图中,紧密的聚类会产生更短的连接,而分离的聚类会产生较长的连接。高度和距离:树状图中的垂直轴表示合并或分裂的距离或相似度。较低的连接高度表示较近的数据点或聚类,而较高的连接高度表示较远的数据点或聚类。层次结构:树状图的深度表示数据点被合并或分裂的次数。较浅的分支表示较高层次的合并或分裂,而较深的分支表示较低层次的合并或分裂。特定模式:树状图中的一些模式可能会暗示数据的特定结构或关系。例如,长时间期内连接较长的情况可能表示数据点之间的相似度较低。不同高度处的切割点将产生不同数量的聚类。原创 2023-08-22 10:55:46 · 561 阅读 · 0 评论 -
统计学补充概念06-层次聚类
凝聚型层次聚类(Agglomerative Hierarchical Clustering):在凝聚型方法中,每个数据点被视为一个单独的聚类,然后逐步将具有最小距离的聚类合并成更大的聚类,直到所有数据点都在一个大聚类中。分裂型层次聚类(Divisive Hierarchical Clustering):在分裂型方法中,所有数据点都被视为一个大聚类,然后逐步将聚类分裂成更小的聚类,直到每个数据点都在自己的聚类中。合并或分裂聚类:根据一定的合并或分裂准则,逐步合并或分裂聚类,直到达到指定的停止条件。原创 2023-08-22 10:53:56 · 303 阅读 · 0 评论 -
统计学补充概念05-积分平方误差
积分平方误差(Integrated Square Error,ISE)是用于衡量两个连续函数之间差异的度量方式。ISE 衡量的是两个函数在一定区间上的差异,即它们的平方误差的积分值。当 ISE 值较大时,意味着它们之间的差异较大。假设有两个连续函数 f(x) 和 g(x),我们想要比较它们在区间 [a, b] 上的差异。在实际应用中,ISE 可能被用来比较模型与观测数据之间的差异,或者用于优化算法的性能评估等。其中,∫ 表示积分操作,[a, b] 是积分区间,f(x) 和 g(x) 是两个函数。原创 2023-08-14 12:09:31 · 852 阅读 · 0 评论 -
统计学补充概念04-最大似然估计
最大似然估计(Maximum Likelihood Estimation,简称MLE)是一种统计方法,用于估计模型的参数,使得给定观测数据的似然函数达到最大。在最大似然估计中,我们寻找能够最大化观测数据的可能性(似然)的参数值。通常,为了方便计算,我们计算对数似然函数 LL(θ) = log(L(θ)),然后寻找能够最大化对数似然函数的参数值。2编写似然函数或对数似然函数,根据数据和参数计算观测数据出现的概率。4得到估计的参数值,它们是使得观测数据出现概率最大的参数。原创 2023-08-14 12:07:06 · 135 阅读 · 0 评论 -
统计学补充概念03-核密度估计
核密度估计(Kernel Density Estimation,简称 KDE)是一种非参数统计方法,用于估计随机变量的概率密度函数(Probability Density Function,PDF)。它通过在每个数据点周围放置核函数(通常是一个正态分布),然后将这些核函数叠加起来来估计概率密度函数。核密度估计常用于数据分布的可视化和平滑。原创 2023-08-14 12:03:24 · 304 阅读 · 0 评论 -
统计学补充概念02-对数似然
在概率统计中,似然函数表示给定观测数据,关于模型参数的概率分布。对数似然则是似然函数取对数后的结果。模型选择: 对比不同模型的对数似然函数,可以评估哪个模型更好地拟合观测数据。需要注意的是,对数似然函数通常用于连续型数据,对于离散型数据,可能会使用类似的对数似然概念来进行模型参数估计和推断。参数估计: 通过最大化对数似然函数,可以找到使观测数据在模型中出现概率最大的参数值,从而对模型参数进行估计。正则化: 在正则化方法中,对数似然函数可以结合一个惩罚项,从而实现对模型参数的约束,防止过拟合。原创 2023-08-14 12:00:43 · 3736 阅读 · 0 评论 -
统计学补充概念01-基本高斯模拟
基本高斯模拟是指使用高斯分布(也称为正态分布)来模拟随机变量的分布或生成随机样本的过程。高斯分布在统计学和概率论中具有重要作用,它是连续概率分布中最常见的一种,具有钟形曲线的特点。应用逆变换方法: 如果你只有一个能生成均匀分布随机数的生成器,可以使用逆变换方法将均匀分布的随机数转换为符合高斯分布的随机数。调整范围: 生成的随机数可能会超出你所需的范围,你可能需要进行调整或截断,以确保数据符合你的要求。重复生成: 根据你的需求,重复以上步骤生成足够多的随机样本,以便获得稳定的分布估计。原创 2023-08-14 11:56:44 · 223 阅读 · 0 评论