机器学习
文章平均质量分 91
muyuu
这个作者很懒,什么都没留下…
展开
-
为什么使用softmax作为多分类的概率函数
首先我们知道神经网络输出层的结果一般无法直接作为概率值,因为它既不是全非负值,加和也不为零,这是不满足概率的定义的。因此首先我们需要对其做一个转化使得:向量值全为非负值向量值加和等于1转化是递增函数而上面几个条件就排除了 xi∑ixi\frac{x_i}{\sum_{i} x_i}∑ixixi,xi2∑ixi2\frac{x_i^2}{\sum_{i} x_i^2}∑ixi2xi2,∣xi∣∑i∣xi∣\frac{|x_i|}{\sum_{i} |x_i|}∑i∣xi∣∣xi原创 2022-04-12 15:50:59 · 2370 阅读 · 1 评论 -
softmax溢出问题
目录上溢及下溢softmax交叉熵损失softmax函数是深度学习常用的输出函数,它的表达式如下:yj^=exj∑i=1nexi\hat{y_j} = \frac{e^{x_j}}{\sum_{i=1}^{n} e^{x_i}}yj^=∑i=1nexiexj上溢及下溢但是如果 xjx_jxj 是一个很大的数,那么 exje^{x_j}exj 可能会大于数据类型容许的最大数字,造成上溢,这将使分母或分子变为 infinfinf, 最后得到的是0、infinfinf 或 nannanna原创 2022-01-31 00:47:14 · 3297 阅读 · 0 评论 -
广义线性模型推导 线性回归模型,Logistic模型,多项Logistic模型
目录广义线性模型推导线性回归模型广义线性模型推导Logistic模型广义线性模型推导多项Logistic模型广义线性模型是机器学习中一种的模型框架,我们常见的 线性模型,Logistic模型,softmax模型 都属于广义线性模型。下面我们就从广义线性模型角度推导这三种模型。首先介绍一下广义线性模型的定义,满足以下三个条件的模型属于广义线性模型:\quad因变量 yyy 服从指数族分布: P(y;η)=b(y)exp(ηTT(y)−a(η))P(y;\eta) = b(y) exp(\eta^T原创 2021-12-28 17:16:29 · 779 阅读 · 0 评论 -
神经网络与深度学习1--机器学习概述
目录机器学习中的损失函数平方损失函数交叉熵损失函数Hinge 损失函数正则化关于L2正则化的两点思考本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第一部分:机器学习基础 的读书笔记,由于该部分比较基础,只记录一些本人觉得比较值得记录的内容,中间也会包括一些拓展和思考。机器学习中的损失函数平方损失函数适用问题:预测的 label y 为实值时,通常是回归问题定义:L(y,f(x;θ))=12(y−f(x;θ))2L(y,f(x;\theta)) = \frac{1}{2} (y - f(x原创 2021-12-27 22:26:37 · 364 阅读 · 0 评论 -
最大熵原则与最大熵模型
最大熵准则熵最大熵准则首先看熵的定义熵熵是信息论中的概念,首先需要定义一个事件X=xX=xX=x的信息量,要求满足以下两个条件:越不可能发生的事情,信息越大几个独立事件同时发生的信息量=每一个事件的信息量之和个满足以上两个条件的且最为简单的函数就是对数函数了,s.t. I(x)=−logP(x)I(x) = -logP(x)I(x)=−logP(x)Proof: P(x)P(x)P(x)越大,I(x)=−logP(x)I(x) = -logP(x)I(x)=−logP(x)越小I(x1,原创 2021-12-26 22:27:31 · 1932 阅读 · 0 评论 -
CRF++代码解读
目录代码结构学习过程数据读入生成特征函数计算loss和gradientbuildLatticeforwardbackward优化算法 lbgfs停止条件预测过程之前我们在 理论篇 中详细介绍了CRF的公式推理。接下来我们会在这篇里读crf++代码(java版本),并结合理论篇里的公式,完成对整个CRF理论+实践的理解。代码原始版本可以戳crf4j代码结构代码的结构如下:"CrfLearn"和"CrfTest"分别是学习过程和预测过程的入口。"Encoder"是服务于"CrfLearn"用来执行具原创 2021-08-27 11:51:55 · 809 阅读 · 0 评论 -
CRF详解(理论推导)
CRF详解(理论篇)基本定义条件随机场定义线性链条件随机场特征函数的定义HMM,MEMM,CRF的比较学习算法前向算法后向算法正则化L1范数和L2范数的区别优化算法预测算法Viterbi与Beam SearchCRF与NN模型的拼接基本定义条件随机场定义X,Y为随机变量,若Y构成一个由无向图G表示的马尔可夫随机场,即满足:P(Yv∣X,Yw,w≠v)=P{Yv∣X,Yw,w∈N(v)}P(Y_v|X,Y_w,w \not= v)=P\{Y_v|X,Y_w,w\in N(v)\}P(Yv∣X,Yw原创 2020-11-30 15:16:07 · 2393 阅读 · 0 评论 -
最大似然估计与交叉熵
熵,交叉熵,相对熵,最大似然估计,最大熵熵交叉熵相对熵(KL散度)最大似然估计最大熵熵熵是信息论中的概念,首先需要定义一个事件X=xX=xX=x的信息量,要求满足以下两个条件:越不可能发生的事情,信息越大几个独立事件同时发生的信息量=每一个事件的信息量之和个满足以上两个条件的且最为简单的函数就是对数函数了,s.t. I(x)=−logP(x)I(x) = -logP(x)I(x)=−logP(x)Proof: 1. P(x)P(x)P(x)越大,I(x)=−logP(x)I(x) = -log原创 2020-11-30 14:44:29 · 1693 阅读 · 1 评论