datawhale--NPL-task1

自然语言处理

自然语言处理是使用计算机科学的相关工具来研究人类语言的一门学科. 它的核心问题包括:1.自然语言理解, 即让计算机能理解自然语言文本(或语音)的含义;2.自然语言生成, 即让计算机生成人能够理解的字眼语言文本.

实现上述两个问题, 就能够让人机之间用自然语言进行交流. 这方面的典型应用有问答系统, 聊天机器人,等等.

 

自然语言处理中存在着两种不同的研究方法,一种是理性主义(rationalist)方法,另一种是经验主义(empiricist)方法。

理性主义方法主张建立符号处理系统,由人工整理和编写初始的语言知识表示体系(通常为规则),构造相应的推理程序,系统根据规则和程序,将自然语言理解为符号结构——该结构的意义可以从结构中的符号的意义推导出来。按照这种思路,在自然语言处理系统中,一般首先由词法分析器按照人编写的词法规则对输入句子的单词进行词法分析,然后,语法分析器根据人设计的语法规则对输入句子进行语法结构分析,最后再根据一套变换规则将语法结构映射到语义符号(如逻辑表达式、语义网络、中间语言等)。

而经验主义的研究方法也是从假定人脑所具有的一些认知能力开始的。因此,从这种意义上讲,两种方法并不是绝对对立的。但是,经验主义的方法认为人脑并不是从一开始就具有一些具体的处理原则和对具体语言成分的处理方法,而是假定孩子的大脑一开始具有处理联想(association)、模式识别(patternrecognition)和通用化(generalization)处理的能力,这些能力能够使孩子充分利用感官输入来掌握具体的自然语言结构。在系统实现方法上,经验主义方法主张通过建立特定的数学模型来学习复杂的、广泛的语言结构,然后利用统计学、模式识别和机器学习等方法来训练模型的参数,以扩大语言使用的规模。因此,经验主义的自然语言处理方法是建立在统计方法基础之上的,因此,我们又称其为统计自然语言处理(statisticalnaturallanguageprocessing)方法。

在统计自然语言处理方法中,一般需要收集一些文本作为统计模型建立的基础,这些文本称为语料(corpus)。经过筛选、加工和标注等处理的大批量语料构成的数据库叫做语料库(corpusbase)。由于统计方法通常以大规模语料库为基础,因此,又称为基于语料(corpusbased)的自然语言处理方法。

 

词的向量化表示

One-Hot 编码

使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效. 例如,将性别列的"男","女"取值用 1 0 和 0 1 表示.

优缺点分析

优点:一是解决了分类器不好处理离散数据的问题,二是在一定程度上也起到了扩充特征的作用。

缺点:在文本特征表示上有些缺点就非常突出了。首先,它是一个词袋模型,不考虑词与词之间的顺序(文本中词的顺序信息也是很重要的);其次,它假设词与词相互独立(在大多数情况下,词与词是相互影响的);最后,它得到的特征是离散稀疏从而维度很高的。

将维度降低的过程,就是要找到一个从这个高维空间到一个低维空间的单射, 使得映射后的响亮不会丢失之前的信息. 这个过程就称之为 词嵌入.

 

word2vec

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包.

word2vec模型可以理解为简单化的神经网络. 它的输入就是onehot编码, 经过 一系列的权重矩阵等矩阵的作用之后,得到一个输出,

 

参考资料:

word2vec 中的数学原理详解

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值