自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 基于深度学习的自然语言处理 第八章

从文本特征到输入8.1 编码分类特征处理自然语言时用到的大部分特征是离散的、分类的特征,比如单词、字母和词性。我们将讨论独热编码和稠密向量两种方案,以及两种方案的权衡和关系。8.1.1 独特编码在形如f(x)=xW+b的线性模型和对数线性模型中,很容易想到指示函数,每个可能的特征都用单独一维表示。举例来说,当用词袋模型表示包含40000项的词表时,x将会是一个40000维的向量,其中第23227维对应单词dog,第12425维对应单词cat。一篇包含20个词的文档将由非常稀疏的40000维向量表示,

2022-03-26 13:33:47 1753

原创 基于深度学习的自然语言处理 第七章

基于深度学习的自然语言处理 第七章NLP特征的案例分析在讨论了用于从自然语言中获取特征的不同信息来源后,我们继续探讨具体的NLP分类任务实例,以及适合它们的特征。7.1 文本分类:语言识别在语言识别任务中,给定一个文档或句子,希望判别是哪一种语言。正如第二章看到的,字母级二元文法词袋(bag of letter-bigrams)是这个任务的一个非常强的特征表示。具体来说,每一个二阶字母是一个核心特征,对于给定的文档,其核心特征是该特征在文档中的计数。7.2 主题分类在主题分类任务中,对于给定的文

2022-03-23 19:46:22 966

原创 基于深度学习的自然语言处理 第六章

文本特征构造在前一章中,我们讨论了通用的学习问题,并且看到了一些适用于训练这些问题的机器学习模型和算法。这些模型都将x视为输入向量,之后进行预测。迄今为止,我们假设向量x是已知的。在语言处理中,向量x来源于文本数据,能够反映文本数据所具有的多种语言学特性。这种从文本数据到具体向量的映射称为特征提取和特征表示,通过特征方程所完成。决定正确的特征是使一个机器学习项目取得成功的一部分。深度神经网络减轻了对特征工程的需要,当然,核心特征还是要被定义的。尤其是对语言数据,其以一系列离散的符号形式存在。这个序列需要使

2022-03-20 21:34:25 2507

原创 基于深度学习的自然语言处理复习笔记 第五章

神经网络训练与线性模型类似,神经网络也是可微分的参数化函数,它使用了基于梯度的优化算法来进行训练。非线性神经网络的目标函数并不是凸函数,因此使用基于梯度的优化方法可能会陷入局部极小。但是,基于梯度的优化方法在实际应用中仍然取得了良好的效果。梯度计算是神经网络训练的核心。神经网络梯度计算的数学原理与线性模型,都是简单地利用微分地链式法则来进行计算。但是,对于复杂地网络来说,这个过程可能比较费力并且容易出错。幸运的是,梯度能够通过反向传播算法被有效和自动地计算得出。反向传播算法是一种使用链式法则来计算复杂式

2022-03-02 09:10:38 433

原创 基于深度学习的自然语言处理复习笔记 第四章

第四章 前馈神经网络4.1 一个关于大脑的比喻在比喻中,神经元是具有标量输入和输出的计算单元。每个输入都有与其相关联的权重。神经元将每个输入乘其权重并将它们相加,然后使其通过一个非线性函数,最终传递给其输出。神经元彼此连接,形成网络:神经元的输出可能会提供给一个或者多个神经元作为输入。这样的网络被证明是功能强大的计算工具。如果权重设置正确,具有足够多神经元和非线性激活函数的神经网络可以近似模拟种类非常广泛的数学函数。经典的前馈神经网络如图4.2所示。图中,圆圈代表神经元,指向神经元的箭头代表其输入,

2022-02-28 09:49:55 931

原创 基于深度学习的自然语言处理笔记 第三章

基于深度学习的自然语言处理笔记 第三章 从线性模型到多层感知器3.1 线性模型的局限性:异或问题线性(对数-线性)模型的假设严格受限,例如,它不能表示异或函数。其定义为:xor(0,0)=0xor(1,0)=1xor(0,1)=1xor(1,1)=0为了说明原因,考虑右侧异或函数的图形,其中⭕表示正类,❌表示负类。显然,没有一条直线能够分割这两个类别。3.2 非线性输入转换然而,如果我们通过将这些点输入给非线性函数Φ(x1,x2)=[x1*x2,x1+x2]进行转换,则异或问题就变成了线性

2022-02-27 10:00:20 594

原创 基于深度学习的自然语言处理笔记

基于深度学习的自然语言处理一 、线性模型我对线性模型的认知就是类似初中学习的函数f(x)=xw+b,f(x)就是y^值。在二分类问题中,预测的结果无非就是两个0或者1,即正面或者负面,而y^的结果在分类问题中,将f(x)过一个函数,可以是sign函数,得到-1,+1。过sigmoid函数,将值的区间映射到[0,1]。在多分类问题中,过softmax函数,得到每一类别的概率值。损失函数的理解:损失函数是计算真实值与预测值之间的差距的结果,损失函数越小,说明准确率就越高。损失函数的表示有很多种,每一种

2022-02-17 05:10:06 554

原创 2021-09-15

transformer总结笔记1 EncoderEncoder由多个相同的layer组成,本实验是N=5,每个layer由两个sub-layer组成,是Multi-Head Attention和全连接的前馈神经网络。其中每一个sub-layer都加了残差和layer-norm。Multi-Head Attention首先,将x向量+postion向量,得到一个新的x向量。将新x向量乘一个权重矩阵W,分别得到Q,K,V向量。实际的过程x是x1,x2…向量组成的矩阵,得到的Q,K,V也是矩阵,这里为

2021-09-16 10:32:37 471

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除