Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings

最新推荐文章于 2022-09-10 10:57:33 发布

咖乐布小部

最新推荐文章于 2022-09-10 10:57:33 发布

阅读量408

点赞数

分类专栏： NLP论文阅读文章标签： word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42253689/article/details/109731478

版权

NLP论文阅读专栏收录该内容

4 篇文章 2 订阅

订阅专栏

Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings

一、研究对象：中文社交媒体信息的命名实体识别。命名实体识别是一个非常重要的组成部分，是关系抽取和实体联系的第一步

二、对象特点：

三、问题描述：

1.NER for Chinese Social Media：和其他语言一样，社交媒体信息对于命名实体识别存在很多问题，例如贫血错误，新颖词汇，没有语法结构。而汉语存在更多的挑战。1.缺少一个此时名字的标志，2.缺少明确的次界限导致更深的命名实体识别混肴。3.此外，普通中文文本要么是简体中文，要么是繁体中文，而社交信息可能温和两种字体。

2.Embeddings for Chinese Text：词嵌入能够用一个低维的连续想来那个表示，能够捕获句法和语义相似度。1.预训练作为特征能够提高命名实体识别，2.对于较小的训练数据，嵌入能够显著的帮助。因为他们能够在大规模的未标记数据上进行训练。

四、现有方法：一种方法是使用词汇嵌入（lexical embeddings）去提高命名实体识别系统

五、方法缺陷：然而，对中文使用embedding仍然是个挑战。以往最好的命名实体是没有标签词，直接替换了标签特征。

六、本文对策：

一、本文提出了几个嵌入方法和他们在中文社交媒体命名实体识别上的作用。这些embeddings会作为特征用于NER系统中。

1.Word embedding

2.character embedding：消除了对文本进行预训练的依赖。更好的满足了本文的目的：在字符上添加NER标签。相比于words embedding，character embedding有更少的参数。但参数的减少也会导致紧固带的损失

3.character and position embedding：character embedding不能够区别不同位置上的相同字符。而Word embedding 不能够使用字符。此方法对每个character添加了位置标签。

二、微调 Fine Tuning

对于每一个嵌入，微调预训练的embedding。这就相当于使用预训练模型初始化embeddings参数，然后在反向传播梯度更新过程中修改参数

三、联合训练对象

微调的缺陷：可能任意偏离在未加工过得文本中国获得的参数。本文提出了联合学习embedding for both language models and the NER task。

四、参数估计。使用w2c的skip-gram 训练对象和负采样训练embeddings。

本文主要贡献：

1.第一次在中文社交媒体上使用命名实体识别。

2.评估了三种嵌入方式用于中文文本。

3.提出了同时为命名实体识别和语言模型训练embedding的联合目标。

咖乐布小部

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings

Named Entity Recognition for Chinese Social Mediawith Jointly Trained Embeddings一、研究对象：中文社交媒体信息的命名实体识别。命名实体识别是一个非常重要的组成部分，是关系抽取和实体联系的第一步二、对象特点：三、问题描述：1.NER for Chinese Social Media：和其他语言一样，社交媒体信息对于命名实体识别存在很多问题，例如贫血错误，新颖词汇，没有语法结构。而汉语存在更多的挑战。1.缺少一个此.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。