机器学习
骑着蜗牛逛世界
只当个人学习记录之用
展开
-
交叉熵损失函数
为啥不使用均方误差损失函数?主要原因是在分类问题中,使用sigmoid/softmx得到概率,配合MSE损失函数时,采用梯度下降法进行学习时,会出现模型一开始训练时,学习速率非常慢的情况交叉熵函数是凸函数,求导时能够得到全局最优值。信息量:熵: 相对熵: 又称KL散度(Kullback-Leibler (KL) divergence),用于衡量对于同一个随机变量x的两个单独的概率分布P(x)和Q(x)之间的差异。相对熵不具有对称性、不具有负数性将上面相对熵KL散度修改格式如下:KL散度 = 信息熵 - 交叉原创 2022-06-27 16:11:26 · 349 阅读 · 1 评论 -
CRF命名实体识别
CRF 层可以向最终的预测标签添加一些约束,以确保它们是有效的。这些约束可以由 CRF 层在训练过程中从训练数据集自动学习。CRF损失函数:Path Score Real = Emission score(发射分数) + Transition score(转移分数)Emission score:神经网络输出的各个Tag的置信度;Transition score:CRF层中各个Tag之前的转移概率;Preal path=escore当只使用CRF做NER的时候规则都是人为制...原创 2022-04-15 18:10:44 · 2362 阅读 · 0 评论 -
HMM命名实体识别
齐次马尔可夫链假设观测独立性假设Y是隐藏状态序列:比如标注序列X是观测状态序列:比如字符序列三个元素:初始状态概率:第一个位置为每个标注标签的概率矩阵状态转移矩阵:上一位置标签到下一位置标签的转移概率矩阵MXM发射矩阵:从每一个标签到字典中每个字符的映射矩阵MXN(M为Y的标签个数,N为X的字典字符个数)实际计算时,也是根据训练数据中频率==概率(最大似然计算)维特比算法核心:在每一时刻,计算当前时刻落在每种隐状态的最大概率,并记录这个最大概率是从前一时刻哪个隐状态转..原创 2022-04-14 11:02:53 · 488 阅读 · 0 评论 -
CRF条件随机场
<1CRF可以定义数量更多,种类更丰富的特征函数。HMM模型具有天然具有局部性,就是说,在HMM模型中,当前的单词只依赖于当前的标签,当前的标签只依赖于前一个标签。这样的局部性限制了HMM只能定义相应类型的特征函数,我们在上面也看到了。但是CRF却可以着眼于整个句子s定义更具有全局性的特征函数,如这个特征函数:(以问号结尾时,第一个单词必须为动词)<2:但在CRF中,每个特征函数的权重可以是任意值,没有这些限制。...原创 2022-03-22 16:18:51 · 155 阅读 · 0 评论 -
HMM隐马尔科夫
一般将一个隐马尔可夫模型记为:【&,A,B】初始状态概率&、隐藏状态之间的转移概率A隐藏状态到可观察状态的发射矩阵B第一个问题:评估三个盒子甲乙丙、盒子里有红黄蓝三种颜色的球,知道第一次取到三个盒子的概率&,盒子之间转移概率A、从每个盒子取到不同颜色球的概率B、求三次取球为红、红、蓝的概率第二个问题:解码三个盒子甲乙丙、盒子里有红黄蓝三种颜色的球,知道第一次取到三个盒子的概率&,盒子之间转移概率A、从每个盒子取到不同颜色球的概率B、且三次取球为红、原创 2022-03-17 17:58:37 · 622 阅读 · 0 评论 -
激活函数总结
激活函数就是给神经网络引入非线性的,以此来模拟复杂的非线性关系sigmoid容易出现梯度消失:导数接近为0.连乘会为0 函数输出并不是零中心化: Sigmoid函数的输出值恒大于0,这会导致模型训练的收敛速度变慢,训练深度学习网络尽量使用zero-centered数据 幂运算相对来讲比较耗时软饱和:导数极限情况下为0硬饱和:导数在确定数值为0梯度消失问题至今仍然存在,但被新的优化方法有效缓解了,例如DBN中的分层预训练,Batch Normalization的逐层归一化,Xavie原创 2022-02-22 19:44:00 · 742 阅读 · 0 评论 -
交叉熵损失函数
交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制交叉熵损失函数原理详解_Cigar-CSDN博客_交叉熵损失函数损失函数:交叉熵详解 - 知乎损失函数|交叉熵损失函数 - 知乎交叉熵损失函数 - 一只小白白 - 博客园交叉熵损失函数 - 简书交叉熵--损失函数 - 扰扰 - 博客园交叉熵损失函数详解 - 程序员大本营...原创 2022-02-09 20:56:08 · 420 阅读 · 0 评论 -
台湾老李--半监督学习
无标签数据一般远远大于有标签数据转导学习:未标记数据是测试数据归纳学习:未标记数据不是测试数据生成的半监督学习模型低密度分离假设光滑假设更好的表现监督生成模型:先验概率和条件概率求后验概率半监督生成模型:无标签的数据有助于进一步矫正决策边界低密度分离(非黑即白) 光滑假设(近朱者赤近墨者黑)...原创 2018-07-23 09:09:41 · 352 阅读 · 0 评论 -
台湾老李--普通RNN
用向量表示词前馈网络不行引出RNN两种记忆性网络双向循环网络原创 2018-07-22 18:57:12 · 192 阅读 · 0 评论 -
台湾老李--迁移学习
源数据是与任务无关的数据,目标数据是任务相关数据渐进神经网络原创 2018-07-25 17:35:38 · 168 阅读 · 0 评论 -
台湾老李--半监督学习(无标签数据远远大于有标签数据)
1、生成模型的半监督学习最大期望2、低密度分离(非黑即白)3、光滑假设(近朱者赤,近墨者黑)相同类之间应该有数据过度,一般不存在鸿沟基于图的方法,计算光滑度...原创 2018-07-12 16:24:21 · 3432 阅读 · 0 评论 -
台湾老李--为什么高瘦网络比矮胖性能好
模块化需要更少参数语音和图像之前浅层方法需要大量特征工程,深度学习方法都是自动从数据中学习原创 2018-07-12 13:15:05 · 502 阅读 · 0 评论 -
台湾老李梯度下降 自适应学习率Adagrad
自适应学习率:用其前导数的均方根划分各参数的学习率随机梯度下降原创 2018-07-09 19:53:07 · 718 阅读 · 0 评论 -
台湾老李分类(概率生成模型)
生成模型:由数据学习出联合概率分布P(X,Y),在求出条件概率分布P(Y|X)判别模型:由数据直接求出决策函数非f(x)或者条件概率分布P(Y|X)把样本分布当做高斯分布,根据已知样本用最大似然估计出均值和协方差,便得出了高斯分布函数,进而根据朴素贝叶斯公式计算条件概率分类...原创 2018-07-09 22:38:19 · 317 阅读 · 0 评论 -
台湾老李--随机、批量、梯度下降
梯度下降算法是机器学习领域求解优化问题的经典算法,直观理解是最快速度下山问题,这里不多说通常是先定义一个损失函数,这里一般都是采用最典型的最小二乘损失函数:模型值减去目标值的批量样本个数求和三种形式的梯度下降的不同就在于每次更新时根据的样本个数不同,随机梯度下降每次只根据一个样本跟新参数,收敛较快,单波动性较大,成为在线学习方法;梯度下经是根据整个epoch的全部样本数更新参数,计算量较大,还比较...原创 2018-07-16 14:38:52 · 163 阅读 · 0 评论 -
台湾老李--二分类模型逻辑回归(对比线性回归、交叉熵与平方误差、多分类softmax、生成与判别)
逻辑回归损失函数生成与判别样本不均衡时,生成模型出错生成模型的好处(一般认为判别优于生成)softmax多分类逻辑回归的局限(只用于二分类)把原始坐标转换到(0,0)和(1,1)的距离(特征转换)由此引出深层概念...原创 2018-07-10 14:21:20 · 941 阅读 · 0 评论 -
台湾老李--全连接网络结构、手写数字识别
手写数字识别原创 2018-07-10 14:36:05 · 309 阅读 · 0 评论 -
台湾老李--反向传播算法
原创 2018-07-10 16:21:00 · 148 阅读 · 0 评论 -
台湾老李--训练神经网络的技巧
欠拟合和过拟合采取的措施Dropout:训练的时候有dropout,测试时没有,测试的权重乘以1-dropout率Dropout的一种理解,随机构造多个结构的简单网络,取平均减少误差...原创 2018-07-10 19:28:49 · 155 阅读 · 0 评论 -
台湾老李--字嵌入word2vec
原来的表示方法无法看出各个词之间的关联关系如何利用语境1、基于基数2、基于预测使用共享参数延伸到和前面多个词相关多种体系结构字嵌入当第一个词包含第二个词时,相减的结果应该相近词的顺序不容忽视...原创 2018-07-23 10:35:00 · 572 阅读 · 0 评论 -
台湾老李--autoencoder自编码降维
编码解码同时进行PCA两边不一定对称(降到30维)降到2维PCA不如自编码的效果去燥自编码文本检索的应用相似图片搜索的应用使用256的编码搜索比直接使用原图片搜索效果好自编码在CNN的应用反池化:记住原来的位置在补零,及反池化效果图反卷积:其实就是卷积,重叠的部分加和,等号两边的权重颜色不一样拓展学习:受限玻尔...原创 2018-07-23 14:55:46 · 5352 阅读 · 0 评论 -
ID3的python实现
import mathimport operator def calcShannonEnt(dataset): numEntries = len(dataset) labelCounts = {} for featVec in dataset: currentLabel = featVec[-1] if currentLabel not in lab...转载 2018-07-05 11:08:15 · 573 阅读 · 0 评论 -
台湾老李--卷积CNN
使用CNN处理图片的理由1、局部特征2、相同特征出现在不同区域3、对图片进行下采样卷积:每个过滤器检测一个小图案,过滤器的参数是网络要学习的参数彩色图片过滤器是三层立体参数共享:图片每个局部区域内共享过滤器的参数池化:下采样减小图片尺寸平坦化各卷积层参数个数每个滤波器激活程度的计算方式:121个数值求和...原创 2018-07-12 10:56:22 · 250 阅读 · 0 评论 -
台湾老李--GAN生成对抗网络(基础)
像素RNN变化的自动编码RNN输入是可变的生成精灵宝贝:三元素生成的太单调,聚类多种颜色VAE:分两步,最小化重建误差,最小化生成精灵宝贝写诗GAN蝴蝶和天敌在同时进化生成模型的输出作为鉴定器的输入GAN有很多变形和应用,这里简略 ...原创 2018-07-23 20:37:02 · 378 阅读 · 0 评论 -
台湾老李机器学习--偏差与方差(误差的来源)
模型太简单--偏差大--在训练集上表现就不好--欠拟合模型太复杂--方差大--在训练集表现良好,在测试集表现不好---过拟合解决办法:正则化+交叉验证(把训练集等分几份分出验证)...原创 2018-07-09 16:33:48 · 154 阅读 · 0 评论