NLP
karl_ll
专注于用一篇文章解决一个问题,而不是长篇大论。
展开
-
NLP学习笔记-LSTM
记录下LSTM的公式,时常温习用。 LSTM 论文:S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Computation, 1997. GRU(Gated Recurrent Unit ) 论文出处:Learning phrase representations using RNN encoder-decoder for statistical machine translation.(EMNLP 2014). .原创 2020-08-09 23:19:06 · 363 阅读 · 0 评论 -
NLP论文学习笔记-deepnmt
论文题目:Sequence to Sequence Learning with Neural Networks 论文作者:Ilya Sutskever(Google) 发表时间: NIPS 2014 评价方法:BLEU 背景:机器翻译需要人工翻译打分,成本太高,速度慢;所以提出了一种机器自动评价的方法; 出处: a Method for Automatic Evaluation of Machine Translation, 2002 1-GRAM: p1=Countclip(the)Cou原创 2020-08-09 22:27:44 · 437 阅读 · 0 评论 -
pytorch学习-torch相关api总结
torch api总结 总结一些常用的api,以防忘记。 完整api链接地址:https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch/ torch 包含了多维张量的数据结构以及基于其上的多种数学操作。另外,它也提供了多种工具,其中一些可以更有效地对张量和任意类型进行序列化。 torch创建相关 # 1. 返回一个2维张量,对角线位置全1,其它位置全0 # torch.eye(n, m=None, out=None) tor原创 2020-08-09 17:17:09 · 580 阅读 · 0 评论 -
神经网络-激活函数总结
学习是不断回顾总结知识的过程。 本文主要介绍常见的激活函数的特征和区别,以及使用matplot绘制。 实现的激活函数包括tanh、sigmoid、softmax、relu等。 激活函数概念 激活函数的主要作用是提供网络的非线性建模能力。 在我们面对线性可分的数据集的时候,简单的用线性分类器即可解决分类问题。但是现实生活中的数据往往不是线性可分的,面对这样的数据,一般有两个方法:引入非线性函数、线性变换。 线性变换,就是把当前特征空间通过一定的线性映射转换到另一个空间,让数据能够更好的被分类。 激活函数,.原创 2020-08-09 13:01:54 · 209 阅读 · 0 评论 -
NLP论文学习笔记-fasttext
论文题目: Bag of Tricks for Efficient Text Classification 作者:Armand Joulin (Facebook) 发表时间:EACL 2017 论文思想:融合基于深度学习和机器学习的文本分类模型,特点速度快,可以在CPU上运行。 Abstract 本文为文本分类任务提出了一种简单并且高效的基准模型——Fasttext。 Fasttext模型在精度上和基于深度学习的分类器平分秋色,但是在训练和测试速度上Fasttext快几个数量级。 我们使用标准的多核CPU原创 2020-07-29 23:32:55 · 307 阅读 · 0 评论 -
NLP论文学习笔记-chartextcnn
论文题目:Character-level Convolutional Networks for Text Classification 作者:Xiang Zhang(New York University) 发表时间:2015(NIPS ) 基本思想:字符级别的卷积神经网络,擅长文本分类型任务。 一、abstract 本文从实验角度探索了字符级别卷积神经网络用于文本分类的有效性。 我们构造了几个大规模的文本分类数据集,实验结果表明我们的字符级别文本分类模型能够取得最好的或者非常有竞争力的结果。 对比模型包原创 2020-07-19 22:24:22 · 218 阅读 · 0 评论 -
NLP论文学习笔记-word2vec
论文原文: Efficient Estimation of Word Representations in Vector Space 作者: Tomas Mikolov 发表时间: 2013 一、论文背景 统计语言模型 基于马尔科夫假设(下一个词的出现仅依赖于前面的一个词或几个词),通过概率计算来描述语言模型(用语料在数据集出现频率近似概率结果) 缺点:参数空间过大,数据稀疏严重 Word representation One-hot Representation(稀疏) watch [0,0,0原创 2020-07-19 16:08:49 · 221 阅读 · 0 评论