NLP学习路径(七):NLP文本向量化

1、文本向量化概述

(1)含义

       文本向量化就是将文本表示成一系列能够表达文本语义的向量。词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分研究都是通过词向量化实现的。但也有一部分将文章或者句子作为文本处理的基本单元,于是产生了doc2vec和str2vec技术。

(2)方法

word2vec(词语),doc2vec(文章),str2vec(句子)

2、向量化算法 word2vec

词袋模型是最早的以词语为基本处理单元的文本向量化方法。

①John likes to watch movies,Mary likes too.

②John also likes to watch football games.

基于上述两个文档中出现的单词,构造如下词典:

{"John":1,"likes":2,"to":3,......},该词典中共包含10个单词,每个单词都有一个唯一的索引,那么每个文本我们都可以使用一个10维的向量来表示。

[1,2,1,1,1.....]

该向量与原来文本中单词出现的顺序没有关系,而是词典中每个单词在文本中出现的频率。但是这种方法存在如下三个问题:

1)维度灾难;2)无法保留词序信息;3)存在语义鸿沟的问题

词向量(doc2vec)技术就是为了利用神经网络从大量无标注的文本中提取有用信息而产生的。因为词袋模型只是将词语符号化,所以词袋模型是不包含任何语义信息的。神经网络词向量模型就是根据上下文与目标词之间的关系进行建模。

(1)神经网络语言模型(NNML)

与传统方法估算P(wi|wi-(n-1),...,wi-1)不同,NNLM模型直接通过一个神经网络结构对n元条件概率进行估计。

NNLM的基本结构图如下所示:

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值