NLP自然语言处理
努力努力再努力_越努力越幸运
写写代码,问题多多,搜搜网站,收获颇多,深有感触,记录心得
展开
-
cs224n 2019 Lecture 2: Word Vectors and Word Senses课程笔记
课程目标简单回顾词向量和词向量模型word2vec 优化基础 通过计数,我们能更有效的抓住这一本质吗 词向量的glove模型 评估词向量 词的含义本人也是刚入门,有些地方因为不是很理解翻译的不好,希望大家积极指正!!!一、word2vec的复习迭代语料库中的每个单词使用词向量预测周围的单词向量是行向量的形式。U*v4是外围词向量和中心词向量的乘积。在计算乘积的s...原创 2019-07-08 11:40:54 · 508 阅读 · 0 评论 -
dropout层的理解
原文:https://blog.csdn.net/u013007900/article/details/78120669/作用:用于减少过拟合。dropout是指深度学习训练过程中,对于神经网络训练单元,按照一定的概率将其从网络中移除,注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。过拟合是深度神经网(DNN)中的一个常见问题:模型...转载 2019-07-17 16:08:11 · 18917 阅读 · 0 评论 -
自然语言处理 cs224n 2019 Lecture 11: ConvNets for NLP
主要内容公告 CNN的介绍 用于句子分类的简单的cnn 各种不同的cnn 用于句子分类的深层cnn Quasi-recurrent Neural Networks本节课视频语音声音字幕跟不上图像,看的很辛苦,到后半部分也没听太懂,老师的ppt很简单,都是说的,重要内容没贴上去pytorch学习推荐书籍:natural language processing with pyt...原创 2019-07-17 17:06:23 · 307 阅读 · 0 评论 -
自然语言处理 cs224n 2019 Lecture 12: Information from parts of words: Subword Models课程笔记
课程内容语言学的一点小知识 纯粹的字符级别的模型 子单词模型:Byte Pair Encoding and friends Hybrid character 和单词级的模型 fastText(这节课也没怎么听懂,以后要边听边做笔记了)一、人类语言声音:语音学和音系学语音学是音流,这是属于物理层面的东西词法学:一个n-grams的代替方案在基于单词的模型中存在一些...原创 2019-07-21 10:21:51 · 329 阅读 · 0 评论 -
自然语言处理 cs224n 2019 Lecture 13: Contextual Word Representations and Pretraining
上下文词表示和预训练主要内容词表示上的映射 Pre-ELMo 和 ELMO ULMfit 和onward Transformer架构 bert一、词表示上的映射现在为止,我们基本上可以说我们有一个词向量的表示了:word2vec,glove,fastText预训练词向量:模型使用了预训练词向量之后,得分得到了提升:预训练词向量可以开始的时候给单词一个随机...原创 2019-07-22 15:34:34 · 342 阅读 · 0 评论 -
nlp自然语言处理面试题
1、word2vec的原理word2vec是一个把词语转化为对应向量的形式。word2vec中建模并不是最终的目的,其目的是获取建模的参数,这个过程称为fake task。有两种实现方法:连续词袋模型CBOW和skip-gram连续词袋模型CBOW在上下文已知的条件下计算当前单词出现的概率,最大化这个概率公式:,t=0,1,2.....m,m为文本的单词数转化为求对数...原创 2019-08-09 21:20:08 · 3749 阅读 · 0 评论 -
自然语言处理 cs224n课程 Lecture 15: Natural Language Generation
主要内容:总结目前已经知道的关于NLG的内容 关于解码算法的更多内容 NLG的任务和神经网络方法 NLG的评估:一个困难的处境 总结了NLG的研究思路、研究现状和展望第一部分:回顾:语言模型和解码算法NLG:自然语言生成。生成一段新的文本 NLG是以下任务的组成成分之一: 机器翻译 概要 对话 创造性写作:讲故事,诗歌生成 自由形式的问答:回答是生成的,而不是从文本中...原创 2019-08-07 18:55:11 · 377 阅读 · 0 评论 -
深度学习的优化算法
参考博客:https://ai.yanxishe.com/page/TextTranslation/19711、梯度下降2、小批量梯度下降 当batch_size = 训练集样本数时,这被称为批量梯度下降。此时会有遍历整个数据集后才开始学习的问题。 当batch_size = 1时,称为随机梯度下降。它没有充分利用矢量化,训练变得非常缓慢。 因此,通常的选择...转载 2019-08-10 10:12:04 · 209 阅读 · 0 评论 -
Attention理解
基础的Attention叫soft attentiona为h的权重。那么重点来了, 权重a是怎么来的呢?常见有三种方法:思想就是根据当前解码“状态”判断输入序列的权重分布。...原创 2019-08-10 14:47:04 · 337 阅读 · 0 评论 -
cs224n 2019 Machine Translation, Sequence-to-sequence and Attention
本节课内容:介绍一个新的任务:机器翻译介绍一个新的神经架构:序列到序列的模型介绍一种新的神经技术:注意力,用于提升序列到序列的模型第一部分:之前的机器翻译方法1950s:系统是基于规则实现的,使用一个双语字典进行映射查询1990s-2010s:基于统计的机器翻译,也叫SMT主要思想:从数据中学习一个概率模型假设我们从法语翻译成英语:对于输入的法语x,找到最好的英语翻...原创 2019-07-12 14:26:13 · 274 阅读 · 0 评论 -
nlp自然语言处理 cs224n 2019 Lecture 10: (Textual) Question Answering 课堂笔记
本节课主要内容最终项目的一些提示 问答系统产生的动机和发展历史 斯坦福大学的SQuAD数据集 斯坦福大学的Attentive Reader 模型 BiDAF 最近的,更进一步的架构 ELMo和BERT模型的概览、一、最终项目的建议论文写作过程:二、问答系统谷歌实际上构建了一个知识图谱为搜索引擎服务可以把问答分为两个步骤:找到可能含有答案的文档(可以通过传统...原创 2019-07-16 16:56:39 · 404 阅读 · 1 评论 -
cs224n 2019 Lecture 9: Practical Tips for Final Projects
主要内容:项目的选择:可以选择默认的问答项目,也可以自定义项目 如何发现自定义项目 如何找到数据集 门神经网络序列模型的复习 关于机器翻译的一些话题 查看训练结果和进行评估一、项目的选择默认项目:在SQuAD上构建一个文本问答系统数据集地址SQuAD2.0:https://rajpurkar.github.io/SQuAD-explorer/二、找到自己感兴趣的项目...原创 2019-07-15 20:23:20 · 269 阅读 · 0 评论 -
cs224n 2019 Lecture 3: Word Window Classification,Neural Networks, and Matrix Calculus
课程目标课程信息更新 分类的复习 神经网络介绍 命名体识别 Binary true vs. corrupted word window classification(不懂什么意思) 矩阵微积分介绍二、分类的介绍和概念有训练集:{xi,yi}Ni=1简单的例子:使用逻辑回归对二维向量进行分类传统的方法:假设xi是固定的,训练逻辑回归权重W来确定一个边界目标函数...原创 2019-07-08 16:34:12 · 419 阅读 · 0 评论 -
cs224n 2019 Lecture 4: Backpropagation and computation graphs
课程目标简单的神经网络的梯度 计算图的反向传播 一些应该知道的: 正则化以防止过拟合向量化 非线性 初始化 优化器 学习率一、神经网络梯度反向传播中梯度的计算:梯度求导的一些注意点:小心的定义变量而且要始终关注它们的维度链式法则要清楚哪些变量用于哪些计算对于模型最上面的softmax部分,首先考虑c=y时的梯度(正确的类别),然后考虑错误的类别...原创 2019-07-08 19:13:23 · 333 阅读 · 0 评论 -
tfidf原理及实现
TFIDF原理TF:单词词频。一个词在文章中出现的频率,公式:tf=词在文章中出现的次数/文章总的词汇数。文章可以是一个句子,也可以是一篇文章,根据具体情况定。idf:逆文件频率。词在该文章中出现的次数越少,越能够代表该文章。IDF=log(语料库的总文档数/包含该词条的文档数+1),分母+1是为了避免分母为0TFIDF=TF*IDF代码实现:两种方法:gesim实现和sk...原创 2019-07-03 14:33:16 · 10509 阅读 · 2 评论 -
cs224n 2019 Lecture 5: Dependency Parsing课程笔记
课程目标语言结构:依赖解析 句法结构:一致性和依赖性 依赖语法和树库 基于过渡的依赖分析 神经依赖分析一、两种语言结构的观点:短语语法结构=上下文无关文法短语结构将单词组织成嵌套的成分单个单词:the, cat, cuddly, by, door单词连接成短语:the cuddly cat, by the door短语连接成更大的短语the cuddly ...原创 2019-07-09 17:26:17 · 481 阅读 · 0 评论 -
word2vec模型中训练出来的词向量在哪里
关于word2vec,看了cs224n的视频,也看了不少博客和知乎,都不太明白这个东西有什么用。今天有针对性的搜了搜word2vec是怎么生成word embedding的,才明白。以CBOW为例,如下图所示。简单的说,word2vec的处理流程是这样的1、选取一个大小为w的窗口,也就是共有2w+1个单词,中间一个单词为中心词2、每个单词在词典中都有自己的one-hot向量3、模型...原创 2019-07-13 19:04:55 · 1158 阅读 · 1 评论 -
CS224N 2019 Lecture 6: RNN:Language Models and Recurrent Neural Network
本次课主要介绍了两个模型n-gram和RNN语言模型语言模型是一个预测一句话中的下一个单词的任务也就是说,给定单词[x1,x2,x3,x4...xt],预测下一个单词x(t+1)是什么单词.x(t+1)是给定词汇表V={w1,w2,...,Wv}中的单词。也可以把语言模型理解为给一段文本分配概率的模型。比如说,有一段文本x1,x2,x3,xt,这个文本的概率是:n-...原创 2019-07-10 19:11:53 · 241 阅读 · 0 评论 -
cs224n 2019 Lecture 1: Introduction and Word Vectors课程笔记
本节课主要是课程介绍和word vectors的介绍。课程目标课程介绍 人类语言和单词含义 word2vec介绍 word2vec求梯度 优化 再看word2vec一、课程介绍有5个作业作业一使用IPython Notebook做的,简单的词向量的调用作业二使用python实现公式,主要是微积分的使用作业三介绍pytorch作业四和作业五在GPU上使用pyt...原创 2019-07-05 21:05:10 · 360 阅读 · 1 评论 -
cs224n 2019 Lecture 7: Vanishing Gradients and Fancy RNNs
本节课内容概述:本节课主要解释了梯度消失和梯度爆炸问题以及其他类型的RNN 上节课将的是RNN以及为什么RNN适用于语言模型。 因为它可以记住前面的信息。 梯度消失问题导致了新RNN的出现:LSTM和GRU 其他修复梯度消失或者梯度爆炸的方法:梯度剪裁 跳过连接 其他更有趣的RNN: 双向RNN 多层RNN首先是梯度消失问题:应用RNN的时候,如果要求h1的梯度,则会应...原创 2019-07-11 15:34:14 · 369 阅读 · 0 评论 -
transformer理解
结构由encoder和decoder构成。1.1 encoder 由N=6个相同的layer组成,每个layer如上图左侧单元所示。 每个layer由两个sub-layer组成,分别是Multi-Head self-Attention机制和fully connected feed-forward network.其中每个sub-layer都加了residual ...原创 2019-08-10 15:34:55 · 545 阅读 · 0 评论