NLP学习路径（七）：NLP文本向量化

最新推荐文章于 2024-05-05 23:51:14 发布

jiaojiaolou

最新推荐文章于 2024-05-05 23:51:14 发布

阅读量3.2k

点赞数 1

分类专栏：学习笔记 NLP 文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiaojiaolou/article/details/88902900

版权

1、文本向量化概述

（1）含义

文本向量化就是将文本表示成一系列能够表达文本语义的向量。词语都是表达文本处理的最基本单元。当前阶段，对文本向量化大部分研究都是通过词向量化实现的。但也有一部分将文章或者句子作为文本处理的基本单元，于是产生了doc2vec和str2vec技术。

（2）方法

word2vec(词语)，doc2vec(文章)，str2vec(句子)

2、向量化算法 word2vec

词袋模型是最早的以词语为基本处理单元的文本向量化方法。

①John likes to watch movies,Mary likes too.

②John also likes to watch football games.

基于上述两个文档中出现的单词，构造如下词典：

{"John":1，"likes":2，"to":3,......}，该词典中共包含10个单词，每个单词都有一个唯一的索引，那么每个文本我们都可以使用一个10维的向量来表示。

[1,2,1,1,1.....]

该向量与原来文本中单词出现的顺序没有关系，而是词典中每个单词在文本中出现的频率。但是这种方法存在如下三个问题：

1）维度灾难；2）无法保留词序信息；3）存在语义鸿沟的问题

词向量(doc2vec)技术就是为了利用神经网络从大量无标注的文本中提取有用信息而产生的。因为词袋模型只是将词语符号化，所以词袋模型是不包含任何语义信息的。神经网络词向量模型就是根据上下文与目标词之间的关系进行建模。

（1）神经网络语言模型(NNML)

与传统方法估算P（wi|wi-(n-1),...,wi-1）不同，NNLM模型直接通过一个神经网络结构对n元条件概率进行估计。

NNLM的基本结构图如下所示：

最低0.47元/天解锁文章

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
NLP学习路径（七）：NLP文本向量化

1、文本向量化概述（1）含义文本向量化就是将文本表示成一系列能够表达文本语义的向量。词语都是表达文本处理的最基本单元。当前阶段，对文本向量化大部分研究都是通过词向量化实现的。但也有一部分将文章或者句子作为文本处理的基本单元，于是产生了doc2vec和str2vec技术。（2）方法word2vec(词语)，doc2vec(文章)，str2vec(句子)2、向量化算法...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。