深度学习
文章平均质量分 80
满腹的小不甘
这个作者很懒,什么都没留下…
展开
-
损失函数:交叉熵 & Label Smoothing标签平滑
参考:(23条消息) Label Smoothing标签平滑详解+Pytorch保姆级实际操作_狗狗狗大王的博客-CSDN博客_标签平滑参数https://blog.csdn.net/weixin_41811314/article/details/115863126(22条消息) Pytorch:交叉熵损失(CrossEntropyLoss)以及标签平滑(LabelSmoothing)的实现_我是大黄同学呀的博客-CSDN博客_标签平滑交叉熵https://blog.csdn.net/qq_3656原创 2022-05-03 16:44:10 · 1768 阅读 · 0 评论 -
【特征工程】与【表示学习】
目录1. 表示学习2. 特征工程与表示学习:人工 vs. 自动3. 模型选择4. 总结1. 表示学习又叫特征学习当我们学习一个复杂概念时,总想有一条捷径可以化繁为简。机器学习模型也不例外,如果有经过提炼的对于原始数据的更好表达,往往可以使得后续任务事半功倍。这也是表示学习的基本思路,即找到对于原始数据更好的表达,以方便后续任务(比如分类)。举个简单的例子,假设我们有{},想要寻找x与y之间的关系: 如果单用肉...转载 2020-12-15 15:17:19 · 300 阅读 · 0 评论 -
word2vec原理(三): 基于Negative Sampling的模型
目录1.Hierarchical Softmax的缺点与改进2. Negative Sampling(负采样)概述3.基于Negative Sampling的模型梯度计算4.Negative Sampling负采样方法 5.基于Negative Sampling的CBOW模型6.基于Negative Sampling的Skip-Gram模型7. ...原创 2019-05-13 22:58:48 · 1484 阅读 · 0 评论 -
Word2vec基础之霍夫曼树
word2vec使用了CBOW与Skip-Gram来训练模型与得到词向量,但是并没有使用传统的DNN模型。最先优化使用的数据结构是用霍夫曼树来代替隐藏层和输出层的神经元,即霍夫曼树的: 叶子节点:起到输出层神经元的作用,叶子节点的个数即为词汇表的小大。 内部节点:起到隐藏层神经元的作用。霍夫曼树的建立过程如下:输入:权值为(w1,w2...原创 2019-05-13 22:29:43 · 2637 阅读 · 0 评论 -
word2vec原理(一): 词向量、CBOW与Skip-Gram模型基础
word2vec原理(一): CBOW与Skip-Gram模型基础word2vec原理(二):基于Hierarchical Softmax的模型word2vec原理(三): 基于Negative Sampling的模型目录1. 词向量基础1.1One-Hot 编码(独热编码)1.2 分布式表示:词向量/词嵌入1.3 词向量可视化1.4 用词嵌入做迁移学习2. ...原创 2019-05-12 23:10:43 · 13907 阅读 · 6 评论 -
自然语言处理库——TextBlob
TextBlob(https://textblob.readthedocs.io/en/dev/index.html)是一个用于处理文本数据的Python库。它提供一个简单的API,可用于深入研究常见的NLP任务,如词性标注、名词短语提取、情感分析、文本翻译、分类等。官方文档:https://textblob.readthedocs.io/en/dev/目录1. 情感分...原创 2019-05-09 15:24:22 · 6469 阅读 · 1 评论 -
自然语言处理库——NLTK
NLTK(www.nltk.org)是在处理预料库、分类文本、分析语言结构等多项操作中最长遇到的包。其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。...原创 2019-05-09 13:54:09 · 5468 阅读 · 0 评论 -
预训练模型:BERT深度解析《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
目录1. 背景2. 什么是 Bert ?3. 论文内容《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》:3.1 第一个步骤——任务1: Masked LM3.2 第二个步骤——任务2:下一句预测4. BERT模型对NLP的影响5. 其他模型5.1 EL...原创 2019-04-18 10:25:47 · 2745 阅读 · 0 评论 -
膨胀卷积(Dilated convolution)
Dilated conv,中文叫做空洞卷积或者扩张卷积,起源于语义分割,大部分文章也用于语义分割,具体能否对其他应用有价值姑且还不知道,但确实是一个不错的探究方向。感受野(receptive field):CNN中,某一层输出结果中一个元素所对应的输入层的区域大小,感受野是卷积核在图像上看到的大小,例如3×3卷积核的感受野大小为9。越大的感受野包含越多的上下文关系。膨胀卷积与普通的卷积相比...原创 2019-11-18 22:32:22 · 40483 阅读 · 4 评论 -
Keras:保存模型并载入模型继续训练
参考:https://blog.csdn.net/qq_34218078/article/details/101663882原创 2019-11-14 09:59:06 · 1611 阅读 · 0 评论 -
循环神经网络:RNN、LSTM、GRU、BPTT
目录1. RNN2. BPTT与RNN梯度消失、梯度爆炸3. LSTM4. LSTM的变体5. GRU1. RNN https://blog.csdn.net/huwenxing0801/article/details/84894238 ...原创 2019-09-02 16:43:07 · 1037 阅读 · 0 评论 -
Tensorboard—使用keras结合Tensorboard可视化
1. keras如何使用tensorboard keras使用tensorboard是通过回调函数来实现的,关于什么是keras的“回调函数”,这里就不再赘述了,所以Tensorboard也是定义在keras.callbacks模块中的,通过构造一个Tensorboard类的对象,然后在训练的时候在fit里面指定callbacks参数即可,keras使用的一般格式为:# 构...原创 2019-08-27 11:40:13 · 2744 阅读 · 0 评论 -
TCN-时间卷积网络
目录一、引言二、时序卷积神经网络2.1 因果卷积(Causal Convolution)2.2 膨胀卷积(Dilated Convolution)2.3 残差链接(Residual Connections)三、讨论和总结1. TCN的优点2. TCN的缺点参考论文:An Empirical Evaluation of Generic Convolutional ...转载 2019-06-03 14:42:01 · 84647 阅读 · 14 评论 -
论文《Attention Is All You Need》及Transformer模型
Introduction本文是谷歌发表的文章,针对nlp里的机器翻译问题,提出了一种被称为”Transformer”的网络结构,基于注意力机制。文章提出,以往nlp里大量使用RNN结构和encoder-decoder结构,RNN及其衍生网络的缺点就是慢,问题在于前后隐藏状态的依赖性,无法实现并行,而文章提出的”Transformer”完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,...原创 2019-04-16 15:25:57 · 494 阅读 · 1 评论 -
《An Attentive Survey of Attention Models》注意力机制的最新综述解读
目录Abstract1. Instroduction2. Attention Model 3.Taxonomy of Attention 注意力机制的分类3.1 Number of sequences 3.2 Number of abstraction levels3.3 Number of p...原创 2019-04-18 15:38:36 · 6133 阅读 · 2 评论 -
Attention的本质:从Encoder-Decoder(Seq2Seq)理解
目录1. 前言2. Encoder-Decoder(Seq2Seq)框架3. Attention原理3.1 Soft Attention介绍4. Attention机制的本质思想5. 总结1. 前言 注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了...原创 2019-04-25 10:37:21 · 1737 阅读 · 1 评论 -
自然语言处理NLP概述
目录1. 自然语言处理概述1.1 什么是NLP1.2 NLP的难度是什么1.3 NLP相关的技术2. NLP常用库2.1 NLTK2.2 TextBlob2.3 Gensim2.4 Pattern2.5 SpaCy2.6 Stanford CoreNLP1. 自然语言处理概述1.1 什么是NLP 简单来说,自然语言处理(NLP)是计...原创 2019-05-08 22:15:03 · 1210 阅读 · 0 评论 -
自然语言处理库——Gensim之Word2vec
Gensim(http://pypi.python.org/pypi/gensim)是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。 主要用于主题建模和文档相似性处理,它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法。Gensim在诸如获取单词的词向量等任务中非常有用。1. gensim概...原创 2019-05-09 11:54:38 · 33778 阅读 · 4 评论 -
Keras学习代码—github官网examples
Github:https://github.com/keras-team/keras/tree/master/examplesKeras实例目录:https://blog.csdn.net/wyx100/article/details/80647379原创 2019-05-21 14:56:04 · 1191 阅读 · 0 评论 -
tf.name_scope()与tf.variable_scope()
TensorFlow的tf.name_scope()、tf.variable_scope()是两个作用域函数,一般与两个创建/调用变量的函数tf.variable() 和tf.get_variable()搭配使用。常用于:1)变量共享;2)tensorboard画流程图进行可视化封装变量。 命名域(name scope),通过tf.name_scope 或 tf....原创 2019-05-22 15:49:14 · 391 阅读 · 0 评论 -
基于LSTM的情感分类案例:Tensorflow代码
整理中。。。 情感分析(Sentiment analysis),又称倾向性分析,包含较多的任务,如意见抽取(Opinion extraction),意见挖掘(Opinion mining),情感挖掘(Sentiment mining),主观分析(Subjectivity analysis)。它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如从评论文本中分析用户对“...原创 2019-05-22 17:17:32 · 2873 阅读 · 1 评论 -
TensorFlow入门:计算图
目录1. 介绍2.什么是数据流图(Data Flow Graph)?3. 基本概念3.1 计算图(The computation graph)1.构建图2.启动图1. 介绍 TensorFlow是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。TensorFlow 最初由Google大脑小组(隶属于Google机器智...转载 2019-05-23 16:45:13 · 1756 阅读 · 0 评论 -
Keras 之 LSTM 有状态模型(stateful LSTM)和无状态模型(stateless LSTM)
目录1. 区别2. 例子3. 疑问解答4. 实战 1. 实例1:官方的example——lstm_stateful.py 2. 实例2:用Keras实现有状态LSTM——电量消费预测 3. 实例3:用Keras实现有状态LSTM序列预测普通多层神经网络stateless LSTM单层Stateful LSTM双层stacked ...原创 2019-03-06 16:52:10 · 11844 阅读 · 17 评论