机器学习
文章平均质量分 62
energy_百分百
while(1){慢几步,深几度}
展开
-
对 Relu激活函数导致 [ 神经元死亡 ] 的理解
Relu激活函数导致 [ 神经元死亡 ] 的原因relu函数和sigmoid函数相比,虽然能够避免反向传播过程中的梯度消失、屏蔽负值、防止梯度饱和;但是relu也有自身的缺陷,当学习率过大时会出现某些神经元永久死亡的现象,导致网络后期无法正常更新原因分析:上式是神经网络权重更新的公式,其中η表示学习吕,Δw表示通过求导得到的当前参数的梯度(一般为正值)当学习率过大时,会导致ηΔw 这一项很大,当ηΔw 大于w时,更新后的w’就会变为负值;当权重参数变为负值时,输入网络的正值会和权..原创 2021-07-17 20:05:26 · 4477 阅读 · 3 评论 -
#深入理解# 线性回归中的“线性”、以及最小二乘和梯度下降的理解
1. 线性回归中的"线性"线性回归中的线性和我们通常理解的线性有着本质的区别,例如:X为自变量函数的次数指的是自变量的最高次项,线性函数表示自变量的最高次项为1;在高中和大学的学习中,我们往往要求解最优的x,因此我们认为x为变量,这时函数是否为线性函数我们要看自变量x指数位置的最大值是否为1;参数为自变量而在机器学习中,我们往往要求解最优的参数(上式中的a),因此,这时我们将a看做是自变量,x看作是常数,这时函数的次数就取决于参数a的最高次项;因此线性回归中如果参数的最高次项为1,原创 2021-07-14 14:36:43 · 1421 阅读 · 0 评论 -
#浅谈# 构造哈夫曼树
哈夫曼树又称最优二叉树,哈夫曼树中离根节点越近,节点的权重越大统计每个数据出现的次数,将每个数据出现的次数组成数组构造哈夫曼树:选择数据列表中最小的两个值,相加成为一个新的节点,并将两个节点较小的值作为左节点,较大的值作为右节点; 将上一步选择的两个节点在数据列表中删除,将想加得到的新节点的值加入到数据列表中 重复执行1、2步操作,直至数据列表为空构造哈夫曼编码将构造的哈夫曼树所有节点的左分支赋值为0,右分支赋值为1,然后将根节点到每个叶子节点路径上的值连起来作为每个叶子节点对应的数据原创 2021-07-12 21:39:12 · 456 阅读 · 0 评论 -
#深入理解# AdaBoost 集成学习方法
在AdaBoost算法中每个样本会被赋予一个权重,然后依次训练多个分类器,每训练完一个分类器都会根据当前分类器的结果对每个样本被选中的概率进行更新并得到当前分类器的权重参数,如果某个样本被算错则增加此样本被选中的概率,反之则降低概率;最后根据更新后的样本权重重新选择N个样本去训练下一个分类器;预测时,将每个分类器的结果加权得到预测的结果AdaBoost算法训练过程:将正样本标签置为1,负样本标签置为-1 初始化样本被选中的概率(均匀分布,每个样本被选中的概率为1/n) 根据样本权重选取N个样本训原创 2021-07-12 17:00:25 · 355 阅读 · 0 评论 -
#深入理解# 决策树综述(ID3、C4.5、CART)
目录1. 构造决策树的依据1.1 信息增益度1.2信息增益率1.3基尼系数2. ID3 vs C4.5 vs CART3. 剪枝操作3.1 预剪枝3.2 后剪枝4. 关于 ID3、C4.5、CART 的几个问题1. 构造决策树的依据决策树的构造,从本质上讲就是每次将样本分成几组,目标是让每一组中的类别尽可能单一(每组的熵加权相加后的值尽可能的小)ID3中使用最大化信息增益度对样本进行分组,C4.5中使用最大化信息增益率对样本进行分组,CART中使用最小化分..原创 2021-07-11 20:02:38 · 647 阅读 · 0 评论 -
Z检验、T检验下 P-value 和置信区间的计算
目录1.置信区间的计算1.1 总体方差已知1.2总体方差未知2.计算 P-Value2.1 总体方差已知2.2总体方差未知1.置信区间的计算根据总体分布(T分布或者Z分布)和规定的置信度计算总体均值在指定置信度下的置信区间,然后将实验值和置信区间比较,若在置信区间之外(小概率事件发生)则表示实验统计量和总体统计量存在显著差异1.1 总体方差已知总体方差已知时,根据总体均值和方差,使用Z分布计算置信区间,公式如下:其中: 表示样本均值 表...原创 2021-07-07 17:22:19 · 18464 阅读 · 0 评论 -
#深入理解# DNN+HMM 语音识别模型
上一篇文章详细解析了 GMM+HMM语音识别模型,在这篇文章中,我们将重点介绍DNN+HMM语音识别模型将DNN应用在语音识别有两种方式:1. 令DNN取代GMM+HMM中的GMM,但是首先要训练一个GMM+HMM的语音识别模型,得到初始状态概率训练一个分类器,输入一个特征帧能够得到一个这个特征属于每一个状态的概率...原创 2021-07-07 10:43:39 · 1046 阅读 · 0 评论 -
#详细解读# 线性回归、逻辑回归及其损失函数
1. 线性回归线性回归输入如果是连续的,输出必然也是连续的,形式是损失函数一般使用 MSE、RMSE、MAE等,因为逻辑回归输出值是0~1本身给出的就是一个该概率值,而线性回归没有激活函数需要使用某种方式构造一种损失,那么最容易想到的便是最小二乘或RMSE,MAE等2. 逻辑回归(LR)逻辑回归在线性回归的基础上增加了激活函数(sigmoid)将输出限制在0到1,因此我们用交叉熵作为逻辑回归的损失函数,这里简述以下交叉熵和sigmoid激活函数:2.1 交叉熵1. 熵的定义:.原创 2021-07-05 16:43:46 · 2448 阅读 · 0 评论 -
#透彻理解# GMM+HMM 语音识别模型 [识别+训练] 过程
1.识别过程:对于每一帧的特征,根据状态转移矩阵A,2. 训练过程:使用k-means等方法初始化每个状态对应GMM中每个高斯分布的权重参数原创 2021-07-02 22:11:39 · 2044 阅读 · 1 评论 -
通俗理解隐马尔可夫模型(HMM)
HMM(隐马尔可夫模型)对于一个观测序列,我们认为这个观测序列是由另一个状态序列输出的,而这个状态序列我们称之为隐马尔可夫链隐马尔可夫链每次可以输出一个观测值,但是一个观测值一次只能被一个状态输出;HMM 的每一个状态输出完一个观测值后会根据概率转换到其他状态(其他状态也包括自身状态)然后在下一个状态下在输出下一个观测值,直到输出所有观测值时结束一个HMM包含三组参数(π,A,B\pi,A,Bπ,A,B):数组π\piπ:表示初始化时每种状态被选择的概率(初始概率分布);矩阵A(N * N,N=原创 2021-06-28 23:35:24 · 1768 阅读 · 2 评论 -
#通俗理解# 从极大似然估计(MLE)到最大期望(EM)算法
顾名思义,最大期望算法就是让某个函数的期望最大化从而得到最优参数,首先我们先要了解期望的公式:期望本质上就是根据随机变量的分布对函数值的加权求和,平均值是期望的一种特殊形式,平均值假设随机变量取到每种值得概率相同(均分分布)EM算法一般用来求解混合模型的参数,因为混合模型一般是多个不同参数模型的加权和,这种形式很难通过导数为零的方法得到每个参数的解析解;EM算法思想是让多个模型对应的似然函数同时最大化;在进一步说,EM算法有两部分参数:一部分是混合模型中各模型的权重参数,我们这里称之为隐变量Z;一原创 2021-06-24 23:10:58 · 3469 阅读 · 3 评论 -
语音识别(Speech Recognition)综述
1. 语音识别的基本单位1.1 Phonemea unit of sound 是声音的最基本单位,每个词语token的声音由多个 phoneme 组成1.2 Graphemesmallest unot of a writing system 每个单词书写最基本的单位,简单来说:英文的grapheme可以认为是词缀, 由 [26个英文字母 + 空格 + 标点符号]组成中文的grapheme是汉字1.3 Word英文可以用单词作为语音识别的最基本单位,但包括中文在内的很多语言无法使用word作为原创 2021-06-18 16:31:42 · 7482 阅读 · 4 评论 -
#深入探究# Adam和SGDM优化器的对比
1. Adma 和 MSGDAdam和MSGD作为当今最优秀的两种深度学习优化器,分别在效率和精度上有着各自的优势,下面我们将分析两种优化器各自优势的原因,两边的两张图分别是 几种常见的优化器在猫狗分类数据集上的分类准确率曲线,第一个是训练集,第二个是测试集以下两张图是某个NLP任务中,几种模型的准确率和困惑度指标变换曲线通过上边两幅图片可知:Adma在训练集上的准确率较高,MSGD在测试集上的准确率较高Adma的速度更快,但MSGD能够得到好的效果第一个结论可以用下边这个图来解释:原创 2021-06-07 16:55:19 · 11261 阅读 · 0 评论 -
对极大似然估计(MLE)和极大后验估计(MAP)的通俗理解
概率与统计对于这个函数:P ( x ∣ θ )输入有两个:x表示某一个具体的数据;θ表示模型的参数。如果 θ 是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少,求解x的过程属于概率学范畴。如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少,求解θ的过程属于统计学范畴。也有人上上述两种问题称之为描述统计学(原创 2021-06-01 17:22:51 · 308 阅读 · 0 评论 -
#透彻理解# 机器学习中,正则化如何防止过拟合
简单来说,正则化就是对损失函数增加额外一种约束的方法,主要用来进行特征选择和改善模型的过拟合现象常用的正则化方法有L0正则、L1正则、L2正则、随机正则L0正则:在损失函数后增加一个惩罚项,这个惩罚项计算参数的L0范数L1正则:在损失函数后增加一个惩罚项,这个惩罚项计算参数的L1范数L2正则:在损失函数后增加一个惩罚项,这个惩罚项计算参数的L2范数随机正则:随机让某些权重系数为零,在神经网络中表现为让某些神经元失活范数的概念如下:范数是一种用来度量某个向量空间(或矩阵)中的每个向量的长度或原创 2021-05-28 23:21:48 · 993 阅读 · 0 评论 -
#手写代码# 用Bert+CNN解决文本分类问题
文章目录1 配置文件2 定义模型2.1 __init__(self,config)函数2.1 conv_and_pool()函数2.3 forward(self,x)函数1 配置文件首先定义一个配置文件类,类里边存放Bert和CNN的一些超参数class Config(object): ''' 配置参数 ''' def __init__(self,dataset): # 模型名称 self.model_name='Bert CNN Mo原创 2021-05-25 10:04:42 · 3820 阅读 · 5 评论 -
#手写代码# 用Bert+LSTM解决文本分类问题
1 配置文件首先定义一个配置文件类,类里边存放Bert和LSTM的一些超参数class Config(object): ''' 配置参数 ''' def __init__(self,dataset): self.model_name='Bert RNN Model' # 训练集,测试集,检验集,类别,模型训练结果保存路径 # self.train_path=dataset+'/data/dev.txt' #原创 2021-05-24 22:57:03 · 4218 阅读 · 7 评论 -
深入理解 PyTorch 的一维卷积和二维卷积,一维池化和二维池化
PyTorch 的一维卷积和二维卷积的输入都可以是多维的默认情况下,一维卷积只对输入的最后一维进行操作,二维卷积只对输入的最后两维进行操作;如果想要对输入的倒数第二维度进行一维卷积,那么必须使用二维卷积进行操作,同时卷积核的第二个维度保持和输入数据的最后一个维度保持一致,这样就能保证卷积核在输入数据的倒数第二个维度上进行滑动了;经过这样的卷积以后,输出数据的最后一个维度会变成1,这时一般会使用 unsqueeze() 函数删除数据的最后一个维度上述思想对PyTroch中的一维池化和二维池化同样适用原创 2021-05-24 14:12:08 · 3335 阅读 · 1 评论 -
通俗理解 TextCNN网络结构
TextCNN和图像CNN最大的区别就在于TextCNN是一维卷积,而图像CNN是二维卷积有些人认为一维卷积核二维卷积的区别在于输入数据的维度,认为一维卷积的输入是一维数据,二维卷积的输入是二维数据;其实不然,两个最大的区别是卷积滑动的方向:一维卷积只在一个唯独上进行滑动二维卷积先在第一个维度上滑动,然后在第二个维度上滑动,比如对于图像来说,卷积核先在第一行像素上横向活动,然后再在第二行上横向滑动…textCNN过程如下图所示:对于一个 n*k 的文本序列,n代表文本序列的长度,k代表embe原创 2021-05-21 14:46:12 · 741 阅读 · 0 评论 -
#手写代码# 使用Bert进行文本分类(包含文本预处理、自定义分类器、模型训练与评估)
用预训练的Bert模型进行文本分类,主要的工作有两个,分别是:文本预处理自定义全连接层分类网络并将分类网络连接到 预训练好的Bert网络之后1 配置文件首先,我们需要定义一个配置文件,定义一系列要使用到的参数class Config(object): ''' 配置参数 ''' def __init__(self,dataset): self.model_name='LiChenhao Bert Model' # 训练集,测试集,检原创 2021-05-20 11:02:18 · 5039 阅读 · 5 评论 -
通俗理解 Adam 优化器
Adma的公式如下,这里我们主要分析红色的标记的这4行公式:公式1、2分别计算 历史梯度的一阶指数平均 和 历史梯度平方的一阶指数平均 ,公式3是计算变量更新值,由公式3可知,变量更新值正比于历史梯度的一阶指数平均值,反比于历史梯度平方的一阶指数平均值;历史梯度的一阶指数平均值历史梯度的一阶指数平均可以理解为求历史梯度的加权平均,距离当前时刻距离越远权重越小如果变量在某一维度更新时,梯度存在较大震荡(梯度更新值正负交替),那么得到的历史梯度的一阶指数平均值通过正负抵消会得到一个较小的值;如果变量原创 2021-05-17 16:04:55 · 10135 阅读 · 1 评论 -
从源码解析 Bert 的 BertPooler 模块
前文链接:energy百分百:从源码解析 Bert 的 Embedding 模块energy百分百:从源码解析 Bert 的 BertEncoder 模块以上两篇文章解析了Bert的BertEmbedding、BertEncoder模块,接下来分析bert的第三个重要模块 BertPoolerBertPooler模块本质上就是一个全连接层网络,或者说一个分类器;BertPooler模块接在bert的堆叠encoder层后,主要用于解决序列级的NLP任务BertPooler模块源码class原创 2021-05-07 23:44:31 · 5118 阅读 · 3 评论 -
从源码解析 Bert 的 BertEncoder 模块
前文链接->从源码解析 Bert 的 Embedding 模块上一篇文章解析了 Bert 的 BertEmbedding 模块,接下来分析 bert的第二个重要模块 BertEncoderBertEncoder源码class BertEncoder(nn.Module): def __init__(self, config): super(BertEncoder, self).__init__() layer = BertLayer(config)原创 2021-05-07 22:53:22 · 4432 阅读 · 3 评论 -
从源码解析 Bert 的 Embedding 模块
前边从源码层面对BertModel类进行了一个深入的解析,接下来从云源码层面对 BertModel 类中的BertEmbeddings模块进行解析1. BertEmbeddings 类源码class BertEmbeddings(nn.Module): """Construct the embeddings from word, position and token_type embeddings. """ def __init__(self, config):原创 2021-05-07 21:50:10 · 3801 阅读 · 2 评论 -
#深入探究# PyTorch中的 forward() 方法详解
在PyTorch的很多函数中都会包含 forward() 函数,但是也没见哪里调用过forward() 函数,不免让人产生疑惑想要了解 forward() 函数的作用,首先要了解 Python 中的 __ call __ 函数,__ call __ 函数的作用是能够让python中的类能够像方法一样被调用,通过下边的例子来理解一下:class X(object): def __init__(self, a, b, range): self.a = a self原创 2021-05-06 22:57:42 · 8105 阅读 · 7 评论 -
从源码层面,深入理解 Bert 框架
看了好多 Bert 的介绍文章,少有从源码层面理解Bert模型的,本文章将根据一行一行源码来深入理解Bert模型BertBertModel 类的源码如下(删除注释)class BertModel(BertPreTrainedModel): def __init__(self, config): super(BertModel, self).__init__(config) self.embeddings = BertEmbeddings(config)原创 2021-04-29 23:11:55 · 2792 阅读 · 4 评论 -
#彻底理解# pytorch 中的 squeeze() 和 unsqueeze()函数
在网上找了很多关于 torch.squeeze() 和 torch.unsqueeze()函数的讲解,但是讲的都不是很明白,尤其是维度增加的位置部分,这里分享一下我自己的理解:torch.squeeze(A,N)torch.unsqueeze()函数的作用减少数组A指定位置N的维度,如果不指定位置参数N,如果数组A的维度为(1,1,3)那么执行 torch.squeeze(A,1) 后A的维度变为 (1,3),中间的维度被删除注:如果指定的维度大于1,那么将操作无效如果不指定维度N,那么将删除所原创 2021-04-29 21:52:23 · 873 阅读 · 0 评论 -
#通俗理解# 测试集、训练集、开发集的区别
训练集train:用于训练模型开发集dev: 用于优化模型的超参数测试集test:用于最终测试模型性能实际场景中,需要进行不断调整模型的超参数(例如学习率)进行多次训练,每次训练使用训练集训练模型,使用开发集评估模型的性能;最终将超参数最优的模型放在测试集上评估模型的最终性能。...原创 2021-04-26 16:19:06 · 884 阅读 · 0 评论 -
#深入理解# NLP 中的 Feature-based 和 Fine-tune 两种学习方法
基于神经网络的语言模型根据学习方法不同大体可以分为两大类,分别是Feature-based和Fine-tuneFeature-based 方法是通过训练神经网络从而得到词语的embedding,换句话说就是通过神经网络得到更恰当的向量来表示词库中的每一个词语,Feature-based 方法不使用模型本身,而是使用模型训练得到的参数作为词语的 embeddingFine-tune 方法会根据下游特定的任务,在原来的模型上面进行一些修改,使得最后输出是当前任务需要的。这些修改一般是在模型的最后一层,或者原创 2021-04-01 23:02:46 · 1419 阅读 · 1 评论 -
#深入解读# 机器学习中的指数函数和对数函数的作用
在学习机器学习相关理论时,我们常常会会在公式中遇到指数函数和对数函数,但是很时候我们并不理解这些函数的的真正作用,这里结合几个机器学习中的公式来具体分析一下指数函数和对数函数的作用指数函数由上图可知:指数函数的自变量范围是(-∞,+∞),因变量范围是(0,+∞)当指数函数自变量范围在(-∞,0)时,因变量输出范围为(0,1)因此,在神经网络中我们可以用指数函数的这两个性质对数据进行(-∞,+∞)到(0,+∞)或者(-∞,0)到(0,1)的映射softmax函数就是一个使用指数函数将神经网络原创 2021-03-14 20:08:47 · 2061 阅读 · 1 评论 -
#深度解析# GAN(生成对抗神经网络)
生成对抗神经网络借鉴了零和博弈的思想,主要用于样本的生成,属于非监督学习简单总结一下 GAN 的基本思想:GAN由两部分网络组成,一个是生成网络,一个是判别网络生成网络部分类似VAE(变分自编码器)网络,用于生成新样本判别网络网络本质上是一个二分类分类器,用于识别输入的样本是真实样本还是生成的假样本;训练GAN网络时,判别网络会不断提高识别能力,而生成网络会不断提高生成能力从而降低判别网络的判别能力;这两种网络相互竞争从而提高网络生成新样本的能力:...原创 2021-03-11 16:54:28 · 2345 阅读 · 0 评论 -
计算机视觉领域使用 transformer(Vision Transformer)
计算机视觉领域一般使用CNN网络进行特征提取,但是为了增大CNN卷积核的视野,需要不断增加CNN网络的深度;不断增加网络深度会导致CNN网络训练效率变差、训练过程复杂且不稳定;将transformer网络和CNN网络相结合,用的transformer的self-attention机制代替CNN中卷积层叠加策略,便能在扩大CNN视野的同时增加网络的训练效率;transformer网络和CNN网络相结合通常有两种方式 :Attention Augmented Convolutional Networks 和原创 2021-03-09 23:54:40 · 1091 阅读 · 0 评论 -
#彻底理解# NLP中的word2vec
首先简单概括一下 word2vec 的思想:word2vec的目的是用指定维度的向量来表示词库中的每一个词,这些向量更利于后期进行各种NLP任务;每个词语对应的词向量本质上是语言模型中的一些权重参数,因此我们需要通过训练网络的方式得到这些权重的最优值,换句话说,我们通过预测未知词的方式训练网络,目的并不是真的要去使用模型预测未知词,而是提取网络的网络的权重参数 进而得到词向量,然后拿这些词向量作为词语的另一种表示形式去进行别的模型里完成NLP任务word2vec的目的是通过训练语言模型得到词向量,而早在原创 2021-03-08 23:43:10 · 486 阅读 · 0 评论 -
从NLP中的标记算法(tokenization)到bert中的WordPiece
所谓 tokenization ,就是如何提取或者说是记录文本中词语,常用的tokenization有词级标记 (Word level tokenization)、字符级标记 (Character level tokenization)、子字级标记 (Subword level tokenization)词级标记 (Word level tokenization)词级标记就是用空格和标点符号讲一段文本分割成许多词语,词级标记标记的最小维度是词语;虽然词级标记是一种符合常识的标记方法,但是他也存在着诸多原创 2021-03-07 23:28:40 · 1799 阅读 · 0 评论 -
#从根本上分析# RNN网络梯度消失的原因
和CNN等深度神经网络梯度消失的原因不同,RNN中所谓的梯度消失并不是真正意义上的梯度消失,准确的说应该是梯度消散RNN 中同样的优化参数在各个时刻共享,最终的梯度 g = 各个时间步的梯度 g_t 的和;较远时刻的输出对相比于相邻时刻的输出,梯度的计算需要更多次求导运算,这就导致远距离的梯度更容易消失或爆炸,换一个角度来说,RNN中的总梯度不会消失,而是远距离输出对应的梯度更容易消失,从而导致模型难以学到远距离的依赖关系。关于LSTM介绍请参考为篇文章->#通俗理解# LSTM网络...原创 2021-03-06 22:42:02 · 1664 阅读 · 2 评论 -
#通俗理解# LSTM网络
简单来说,LSTM通过一条主线,三个门来处理序列信息,这里对LSTM常用到的几个计算核函数做一个说明sigmoid函数:用于输出一个0~1的概率值或比例值,一般搭配乘法运算,用于控制信息传递的比例乘法:一般将一个比例值和信息相乘,用于控制信息传递的比例加法:一般将两种信息想加,做信息的融合主线主线上记录所有历史时刻传来的数据(同样经过之前三种门处理后得到的数据)遗忘门融合上一时刻的输出和当前时刻的输入并通过sigmoid函数输出一个0~1的数据,然后和主线上的数据做乘法,意义在于选择当前时原创 2021-03-04 22:39:06 · 871 阅读 · 1 评论 -
#深入理解# BN LN IN GN几种标准化的区别
首先说明一下这 Batch Normalization 和Layer Normalization 都是标准化过程,网上很多文章翻译成批归一化是严重错误的这里先简单说明一下归一化和标准化的区别:归一化:数据线性映射到0-1之间,无量纲化(可以忽略单位对计算的影响),使不同量纲的数据具有可比性标准化:常用的方法是z-score标准化,经过处理后的数据均值为0,标准差为1详细分析请参考我的这篇文章->#浅析# tensorflow中的批标准化Batch Normalization 表示对一批原创 2021-03-02 21:41:11 · 1042 阅读 · 0 评论 -
数值解与解析解
解析解(analytical solution)就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题. 解析解,又称为闭式解,是可以用解析表达式来表达的解。 在数学上,如果一个方程或者方程组存在的某些解,是由有限次常见运算的组合给出的形式,则称该方程存在解析解。数值解(numerical solution)是采用某种计算方法,如有限元的方法, 数值逼近,插值的方法, 得到的解.别人只能利用数值计算的结果, 而不能随意给出自变量并求出计算值. 当无法由原创 2021-02-25 19:52:45 · 788 阅读 · 0 评论 -
#通俗理解# 极大似然估计(ELM)
首先我们不要你这个名称吓到,极大似然估计我们可以理解为一种通过最大化似然函数而对概率分布中的参数进行估计的方法,目的是估计概率分布中的参数,方法是最大化似然函数,这样是不是就很好理解了。想要了解极大似然估计,我们首先就要理解一下什么是似然函数,似然函数是某一事件发生的概率(某一组相互独立的样本取到某组特定值的联合概率),其中自变量是分布参数θ,特定事件发生的概率随θ的不同而不同很多人会混淆似然函数和概率密度分布函数的关系,想了解似然函数和概率密度分布函数的关系请参考博主的这篇文章->#深入理解原创 2021-02-25 10:41:31 · 1232 阅读 · 0 评论 -
#深入理解# 概率密度分布函数和似然函数
似然函数是某一特定事件发生的概率,其中自变量是分布参数θ,特定事件发生的概率随θ的不同而不同概率密度分布函数是不同事件发生的概率,自变量是样本取值,这样说可能不便于理解,下边通过二项分布概率公式说明:上边是二项分布计算概率的一般公式,似然函数中的自变量是公式中的p,而概率密度分布函数中的自变量是公式中的k如果你还是不理解,这里引用quora上的一个回答 What is the difference between probability and likelihood我们可以再做一个类比,假设一原创 2021-02-25 10:09:59 · 3252 阅读 · 0 评论