字符粒度表示用于词性标注

最新推荐文章于 2023-04-11 16:56:51 发布

haimizhao

最新推荐文章于 2023-04-11 16:56:51 发布

阅读量996

点赞数

分类专栏：机器学习与自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haimizhao/article/details/78029424

版权

机器学习与自然语言处理专栏收录该内容

16 篇文章 0 订阅

订阅专栏

简述

概括来讲，就是把单词的字符序列用CNN来提取特征，与预训练的word2vec一并，用于提升词性标注的效果

文章全名：Learning Character-level Representations for Part-of-Speech Tagging

字符特征

字符特征的提取主要是考虑到字母的大小写、前后缀事实上是传统优化算法用于词性标注任务的重要特征，如果能恰如其分用网络结构表示出来，可能取得更好的效果

类似于单词，每个字母都有一个从one-hot到向量的表示，这是第一层

缺图

每个单词可以看成字母的序列，进而可以看成字母序列的ngram，取窗口大小为k，其中的一个ngram可以表示为

缺图

一个单词转化成{z1,...,zm,...zM}，经过一层变换后，在M中取最大的，就得到一个单词的最终表示

缺图

最后看到的就是下面这个结构：

缺图

每一个单词都分别对应一个通过word2vec训练得到的词向量，和一个字符向量，而字符向量不需要预训练

其他部分都遵循了C&W的文章的方法

其他细节

文章只用了4线程的CPU来训练，对硬件要求不高

从结果上看，保持其他设定，对比手工提取前后缀特征，文章的方法有细微的提升；在遇到未登陆词的时候，在不同的语料上互有胜负。但如果彻底不用形态特征，遇到未登陆词时效果就很差了

字符向量相似度最高的词举例：

缺图

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符粒度表示用于词性标注

简述概括来讲，就是把单词的字符序列用CNN来提取特征，与预训练的word2vec一并，用于提升词性标注的效果文章全名：Learning Character-level Representations for Part-of-Speech Tagging字符特征字符特征的提取主要是考虑到字母的大小写、前后缀事实上是传统优化算法用于词性标注任务的重要特征，如果能恰如其分
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。