自然语言处理浅述

引言

自然语言处理被誉为机器学习皇冠上的明珠,这体现了自然语言处理的重要性及其难度,如今,自然语言处理技术主要可以分为基础及应用基础,包括词向量表示以及分词技术应用,主要包括文本分类信息提取以及其他应用,如知识图谱的构建。

狭义的自然语言处理问题包括文本分类、自动问答、舆情监控等,而广义的自然语言处理问题还包括包含自然语言的文本、音频、视频等等。

笔者认为,自然语言处理的主要研究价值是可以实现较为流畅的人机交互,以及一定程度上实现机器的思维过程。

词向量

关于词语的向量化表示,传统上可以人为的定义词语之间的关系组成词网,并由此得到词向量,但是词网的定义过于主观,并且需要大量人力,无法适应多变的语言环境;也可以对一定语言环境中的词进行词袋编码,让他们用独热编码表示,但这样会造成向量过于稀疏,并不便于计算和储存,对此有两种改进方法。

对此有两种改进方法,一种是得到词语的稀疏表示之后再训训练神经网络过程中加上一层顶层。这种词嵌入层随着神经网络一起训练,该层通过输入词语的稀疏向量表示输出较为浓缩的向量,表示随这训练不断进行,慈心如层的输出会越符合词语在该语境下的含义。

也有一种普遍使用的方法是word2vec算法,该算法的基本假设是——词语的含义可以由其附近的词汇判断。该算法先为不同词汇随机生成了表示的向量矩阵,然后将损失函数设置为通过每个词预测其周围词汇的概率成功概率的最大值。因为可以证明,将两个词向量转置相乘得到的结果与两个词向量之间的关联程度有关,我们利用这样的关联程度可以计算出一个词汇与其周围词汇的相关性,我们将这样的相关性设置为损失函数。通过不断训练优化损失函数,提高这样的相关性,最终可以也可以得到比较理想的词向量表示。

Seq2seq模型

自然语言处理首先用于机器翻译问题,一种常用的模型是在seq2seq模型,该模型由两个循环神经网络组成,在此先简要讲述一下循环神经网络。

循环神经网络是在普通全连接神经网络的基础上,将前一次输出结果与这次输入通过一定权重混合共同作为这次的输入,这样一来,尽管每次输入都使用的是同一个神经网络,但包含了之前所有输入的信息。这种普通的循环神经网络模型也可以作为seq2seq的编码器,通过不断输入一句话中的词向量,可以得到编码后的句向量。

Seq2seq模型的解码器也是一个循环神经网络基础的,他将得到的句向量作为第一次输入,并将这个具象与每一次输出结果混合作为下一次输入指导,每次输出结果均为一个词向量,可以根据找到该词相对应的词得到输出结果,直到输出的词向量对应为标志,一句话结束的词向量时才停止。

在该模型训练过程中,一般采用force teaching的方法,也就是对解码器而言,每次的输入并不是上次的输出,而是期望的正确的输出,这样一来可以防止训练初始阶段解码器的输出过于离谱,因为训练初始阶段,解码器神经网络输出期望结果的概率很低

在训练该模型的过程中,一般采用贪心的思想,也就是最大化下一个输出为目标输出的概率,从而优化解码器参数,但是这样容易进入一些文字的陷阱,一般来讲,会使用前K次来预测下一次的输出,也可以将损失函数设置为整个完整输出所对应的误差之和。

文本分类和自动摘要

一般来讲,得到聚德慈善网或具象表示之后,文本分类完全可以通过普通的神经网络来做,而自动摘要往往是基于语段中的词频统计或者一些人为的评判标准。另一方面,对更具有智能的文本分类和自动摘要技术,目前尚处于研究当中。笔者认为这无法单单通过感知神经网络实现。

当今主要研究发现和学者

当今自然语言处理的主要研究方向依然是自动问答、自动摘要等,可以应用于医疗、心理、新闻等领域。不过使用了新进提出的transformer、BERT、attention等技术,特别是使用了巨量模型。

一些学者:

Daniel S. Weld 对数据提取主要研究基于互联网的自然语言数据提取;我个人对Yoshua Bengio更感兴趣,关于鞍点的讨论、GAN模型和软注意力机制都是Yoshua Bengio及其研究伙伴的成果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值