Deep Learning
文章平均质量分 94
nana-li
越努力,越幸运!
展开
-
[TensorFlow] 交叉熵损失函数,加权交叉熵损失函数
写在前面在文章[TensorFlow] argmax, softmax_cross_entropy_with_logits, sparse_softmax_cross_entropy_with_logits函数详解中,提到了交叉熵损失函数的计算方式以及tensorflow中的输入和输出等。本篇文章会更细地讲一下tensorflow中交叉熵损失函数的应用,以及在优化过程中可能用到加权交叉熵损失函数的使用方式。一、基础计算当存在多个类别时,通常使用交叉熵损失函数来衡量模型的效果,也是对模型调参的重要依据,原创 2021-08-22 18:51:17 · 11284 阅读 · 1 评论 -
【论文阅读】Learning to Extract Attribute Value from Product via Question Answering: A Multi-task Approach
写在前面本文是Google Research发表在kdd2020上的一篇文章,主要是利用问答系统的算法来解决属性值提取的问题。论文地址本文主要从背景、算法、实验和总结几部分来讲解。一、背景1、任务和示例Attribute value extraction: The task of identifying values of an attribute of interest from product information.属性值提取,即识别为商品中的属性信息如上示例,文本是商品信息,A原创 2021-08-08 19:02:43 · 1957 阅读 · 3 评论 -
迁移学习(Transfer Learning)
本博客主要是台湾大学-李宏毅老师的公开课的总结。一、简介迁移学习主要是指将已有数据的领域知识迁移到数据缺乏的领域任务中,下面简单介绍下:出现原因迁移学习主要用于将源域(source domain)的知识迁移到目标域(target domain),也可以理解为源域的数据辅助目标域数据的决策。其出现的主要原因是目标域数据较少,若仅仅使用目标域的数据,不足以训练一个比较好的模型,所以我们借助...原创 2019-05-10 13:53:13 · 3218 阅读 · 0 评论 -
GBDT和Xgboost:原理、推导、比较
写在前面网上有很多关于GBDT和Xgboost的文章,但是我在读的时候感觉对于提升树、GBDT和Xgboost之间的关系,以及他们和残差、梯度的关系,所以自己整理了一下,涉及的知识点比较多。Xgboost证明部分主要来源于论文,这里加入了自己的理解,以及对几者关系的说明。在看本篇博文之前可以先看下提升树的相关内容,这样理解起来会思路更清晰。提升树、GBDT和Xgboost的简单介绍如下:...原创 2019-03-23 23:00:10 · 17304 阅读 · 16 评论 -
[激活函数] 非线性原因分析、Sigmoid、TanH、ReLU和ELU
本篇主要整理下激活函数的相关内容。首先讲下激活函数需要满足的条件:计算简单非线性为什么需要满足非线性呢?我们来看下面这个例子。如图单隐层神经网络,我们在计算的时候有如下公式:z1(2)=w[1]x+b[1]a1(2)=g[1](z1(2))\begin{aligned}z_1^{(2)} &= w^{[1]}x+b^{[1]} \\a_1^{(2)} &am...原创 2019-03-20 12:11:54 · 7098 阅读 · 0 评论 -
[交叉熵损失和accuracy关系] 验证集上val-loss先降低再增加,而val-accuracy一直在增加
在上一篇博文([歌词生成] 基于LSTM语言模型和seq2seq序列模型:数据爬取、模型思想、网络搭建、歌词生成)中,seq2seq训练之后,我们发现其在训练集合验证集上loss和accuracy变化如下:我们首先来回顾一下过拟合的基本表现:训练集loss不断降低,但是测试集的loss开始不断增加。再来看我们这个情况,看右边2个loss的图,在第15个epoch之前,训练集上的loss不断...原创 2019-01-09 15:42:11 · 35692 阅读 · 60 评论 -
[歌词生成] 基于LSTM语言模型和seq2seq序列模型:数据爬取、模型思想、网络搭建、歌词生成
非常好奇强大的生成技术,写了这个小项目。模型优化无止境,这只是初步的模型,有时间我也会不断优化。本文主要对中文歌词进行自动生成。主要使用了基于概率语言模型的方法和基于seq2seq的方法进行生成。本文所有代码地址:[Github](https://github.com/Nana0606/Lyrics-generation)原创 2019-01-09 11:02:34 · 7078 阅读 · 9 评论 -
[受限玻尔兹曼机] 原理、求解过程推导、深度信念网络
本篇文章主要写受限玻尔兹曼机、Gibbs求解方法、CD对比散度求解方法和深度信念网络。原创 2018-05-30 21:40:09 · 3554 阅读 · 0 评论 -
Keras: Merge和merge区别、Sequencial()和Model()区别
本篇博客主要整合一些本人在阅读时感觉很有用的连接,非原创。一、Merge和merge简介Keras中提供了Merge和merge两个不同的功能(新的版本中可能Merge功能已经删除,亲测:Keras2.0.4中Merge和merge功能都是存在的,但是Keras2.2.4中Merge功能已经删除)。关于这两者的区别,请详见链接:“Merge” versus “merge”, what is...原创 2018-12-05 10:29:55 · 17025 阅读 · 2 评论 -
[CNN] 卷积、反卷积、池化、反池化
之前一直太忙,没时间整理,这两天抽出点时间整理一下卷积、反卷积、池化、反池化的内容。一、卷积1、卷积的简单定义卷积神经网络中的卷积操作可以看做是输入和卷积核的内积运算。其运算过程非常容易理解,下面会有详细解释。2、举例解释(1)为了方便直接解释,我们首先以一个通道为例进行讲解,首先明确概念:1) 输入是一个5*5的图片,其像素值如下:[11100011100011100110011...原创 2018-11-28 17:03:55 · 35717 阅读 · 24 评论 -
[自编码器:理论+代码]:自编码器、栈式自编码器、欠完备自编码器、稀疏自编码器、去噪自编码器、卷积自编码器
写在前面因为时间原因本文有些图片没有自己画,来源网络的图片我尽量注出原链接,但是有点的链接已经记不得了,如果有使用到您的图片,请联系我,必注释。自编码器及其变形很多,本篇博客目前主要基于普通自编码器、欠完备自编码器、稀疏自编码器和去噪自编码器,会提供理论+实践(有的理论本人没有完全理解,就先没有写上,后更)。另外,关于收缩自编码器、变分自编码器、CNN自编码器、RNN自编码器及其自编码器的应用...原创 2018-11-25 09:25:24 · 34562 阅读 · 62 评论 -
Paper Summary: Neural Machine Translation
一、 Sequence to Sequence Learning with Neural Networks1、提出背景:(1)虽然DNN可以解决现实生活中的很多问题,但是在解决机器翻译过程中,主要的问题是其输入和输出的长度一致。(也许可以通过padding等方式使得输入和输出长度变得不一样,比如输入是10,固定输出也是10,如果输出是5,则将剩下的5个输出使用null填充等,但是这样不太合适,...原创 2018-11-07 11:17:20 · 823 阅读 · 0 评论 -
[TensorFlow] argmax, softmax_cross_entropy_with_logits, sparse_softmax_cross_entropy_with_logits函数详解
1、tensorflow.nn.sparse_softmax_cross_entropy_with_logits2、tensorflow.argmax原创 2018-05-24 22:05:24 · 1542 阅读 · 0 评论 -
安装Pytorch的小坑简记
尝试装pytorch,官网上的介绍比较简单,但是安装过程中出现了一些问题,记录一下,不一定对所有机器都适用。写在前面环境如下:Ubuntu16.04(自带python2.7)一、版本问题最开始使用是Anaconda3-4.3.1,其自带的是python3.6,Pytorch官网上虽然给出了python3.6对应的命令,但是在本机安装不成功,最后安装成功的版本如下: Ana...原创 2018-03-29 21:27:00 · 7577 阅读 · 2 评论