C2W 词向量

最新推荐文章于 2022-02-13 22:56:38 发布

xiao___qiao

最新推荐文章于 2022-02-13 22:56:38 发布

阅读量438

点赞数

分类专栏： NLP 文章标签： nlp 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37074299/article/details/112339651

版权

NLP 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

目录

1 目的和思想
2 模型原理
- 2.1 语言模型训练
- 2.2 POS（词性标注任务）
3 c2w 总结
- 3.1 c2w 优缺点
- - 3.1.1 优点
  - 3.1.2 缺点
4 应用

1 目的和思想

c2w模型的目的：求出能表示出词与词之间的关系的词向量
c2w的整体思想：将单词的字符放在双向 LSTM 能够得到词向量
模型出自论文: Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation

2 模型原理

模型实现：

将词放入词查找表，拿出该词的向量
将词分为每个字符，放入字符查找表，拿出每个字符的向量
分别放入 Bi-LSTM 中前向和后向
前向和后向最后一个隐藏层的输出组合到一起得到单词cats的词向量

2.1 语言模型训练

c2w训练流程，得到向量，经过 softmax 预测单词

2.2 POS（词性标注任务）

主要是在输出向量，经过softmax得到词性

3 c2w 总结

在一般的词向量模型中，词是相互独立的，虽然可以学习到词与词之间的关系，比如原型，比较级，最高级，但是如果给定一个单词great，是不能推出来他的比较级是greater的（如果词表中没有greater这个词就会是一个UNK），就是没有推理能力
所以 C2W 模型能够很好地捕捉词之间的语法和语义相似度，并且在两个任务上取得最优的结果

3.1 c2w 优缺点

3.1.1 优点

能够解决OOV词问题
可以推出形式相近的词的信息
可以得到字符间的结构信息

3.1.2 缺点

训练时需要 LSTM 从向量生成词，速度比词向量机制要慢
测试时虽然可以通过缓存的方法预先生成一些词向量，但是对于OOV词的词表示生成依旧速度慢

4 应用

主要用于需要字符信息的任务，如序列标注、NER（命名实体识别）、POS（词性标注）

词性标注——这是什么类型的词？
命名实体识别——这个词是否是专有名词

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄8年

31
原创

12
点赞

56
收藏

4
粉丝

关注

私信

热门文章

分类专栏

java
深度学习 1篇
graph 5篇
NLP 12篇
常见问题 1篇
pytorch 9篇
机器学习 1篇

最新评论

GraphSage 图向量
自在飞花69: 请问这个模型可以通过python进行引用吗？求代码求论文名称。研究所用，十分感谢
RNN
不吃西红柿丶: 写得挺好，要持续稳定输出哦~
pytorch 安装
不吃西红柿丶: 非常有用，感谢大佬的整理，期待后续大作
tensorboard 使用
不吃西红柿丶: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指指点点!
plt、nn 使用
不吃西红柿丶: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指指点点!

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。