常见的词向量类型

最新推荐文章于 2024-07-24 14:54:00 发布

文文学霸

最新推荐文章于 2024-07-24 14:54:00 发布

阅读量52

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/abcdefg90876/article/details/130432745

版权

最近面试中经常被问到常用的词向量的表示方式，这里就整理一下常见的类型

1、词频做向量值

Bag-of-words model (BoW model)最早出现在自然语言处理(Natural Language Processing)和信息检索(Information Retrieval)领域.。该模型忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档.。近年来，BoW模型被广泛应用于计算机视觉中。
基于文本的BoW模型的一个简单例子如下：
假设有两个简单的文本：
John likes to watch movies. Mary likes too.
John also likes to watch football games.
基于上面的两个句子，我们可以构建如下的字典：
{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}
上面的词典中包含10个单词, 每个单词有唯一的索引, 那么每个文本我们可以使用一个10维的向量来表示。如下：
[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1,1, 1, 0, 1, 1, 1, 0, 0]
该向量与原来文本中单词出现的顺序没有关系，而是词典中每个单词在文本中出现的频率。
Distributed Representation是一个稠密、低维的实数限量

最低0.47元/天解锁文章

文文学霸

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常见的词向量类型

最近面试中经常被问到常用的词向量的表示方式，这里就整理一下常见的类型1、词频做向量值Bag-of-words model (BoW model)最早出现在自然语言处理(Natural Language Processing)和信息检索(Information Retrieval)领域.。该模型忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的。BoW使...
复制链接

扫一扫