使用Rnn进行中文词性标注时遇到的问题

最新推荐文章于 2024-07-10 11:32:19 发布

ion_ura

最新推荐文章于 2024-07-10 11:32:19 发布

阅读量113

点赞数

文章标签： rnn 人工智能深度学习 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ion_ura/article/details/131020026

版权

在使用rnn进行中文词性标注时遇到了这样的问题：损失函数几乎不下降。

我最初的做法是，对汉字和词性转化成0，1，2，3……这样的序号。总计52种词性，训练了十多个epoch以后，MSELOSS依旧有三十多。

之后我反应过来：我没有对文字进行编码,应当在rnn网络之前加如embedding层。同时，分类结果以0-52的形式存在并不合理，应当将其映射到（0，1）或者（-1，1）这样的区间。

但此时训练效果依旧不理想。于是我想到：既然可以对汉字进行embedding，那是否可以对词性也进行embedding呢？

但要我最开始对词性加入embedding层后，又跟了两个全连接。这就好玩了，loss是很小。为啥呢？因为所有词性全被这两个全连接层给映射到同一个值附近了。因此，此时的网络就成了这样：训练一个网络，无论其输入是什么，得出同一个结果。这可太容易实现了。但这样的网络显然不是我们希望的。故，对词性进行embedding后不能加入全连接。

训练的数据集是老舍的《骆驼祥子》。经过一个epoch的训练，输入“骆驼祥子拿着一个全新的手机”让网络识别，给出的结果是：

骆驼'n'名词

祥子 'nr'人称

拿 'v'动词

着 'f'方位（识别错误）

一个 'm'数次

全新 'n'名词

的 'uj'“的”

手机 'n'名词

。 'x'符号

虽然数据集中没有“手机”（毕竟老舍的年代肯定没这个东西），但网络能够结合前文进行推断：结合“一个崭新的”，和“手”能够推断“手机”是名词。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用Rnn进行中文词性标注时遇到的问题

因此，此时的网络就成了这样：训练一个网络，无论其输入是什么，得出同一个结果。故，对词性进行embedding后不能加入全连接。同时，分类结果以0-52的形式存在并不合理，应当将其映射到（0，1）或者（-1，1）这样的区间。虽然数据集中没有“手机”（毕竟老舍的年代肯定没这个东西），但网络能够结合前文进行推断：结合“一个崭新的”，和“手”能够推断“手机”是名词。我最初的做法是，对汉字和词性转化成0，1，2，3……于是我想到：既然可以对汉字进行embedding，那是否可以对词性也进行embedding呢？
复制链接

扫一扫

ion_ura CSDN认证博客专家 CSDN认证企业博客

码龄2年

7: 原创

157万+: 周排名

201万+: 总排名

4692: 访问

: 等级

85: 积分

8: 粉丝

5: 获赞

13: 评论

40: 收藏

私信

关注

热门文章

分类专栏

强化学习 1篇
深度学习 1篇

最新评论

固体火箭发动机零维内弹道的数值计算
m0_67243362: 可以直接求的吧，二元龙格库塔法
使用RNN/LSTM/GRU实现中文分词
m0_63818062: 你好，请问CC.txt和POS.txt文件可以分享一下吗
数值计算杜哈梅积分
2301_81805585: 刚体系可以用虚功原理建立体系的运动方程，
固体火箭发动机零维内弹道的数值计算
孟德尔单杀豌豆射手: 万分感谢您的解答
固体火箭发动机零维内弹道的数值计算
ion_ura: 是的，燃烧过程分为三个阶段。每个阶段中固体燃料的表面积表达式不同，体积的表达式不同。你可以去查一下星形装药的固体火箭发动机的资料。e分成三个部分也是因为三个燃烧阶段中肉厚计算不同。至于分了不同的步长，没有意义，只是当时想那么写了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。