Named Entity Recognition for Chinese Social Media with Jointly Trained Embedding 笔记

最新推荐文章于 2024-01-25 01:54:24 发布

牧童在路上

最新推荐文章于 2024-01-25 01:54:24 发布

阅读量341

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/qq_43708647/article/details/114797553

版权

nlp 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

摘要

中文NER主要针对正式文本，对于社交媒体的NER主要在英语上，本文标注了一个新的微博数据集，标注有名称和一些名词性提及

1.介绍

一个中文NER 传统是利用lexical embedding来提高NER性能，然而不像其他语言，我们不能使用没有自动分词来为中文单词赋值一个Embedding,这是不可信的，所以中文NER model都tag characters。
本文

joint train embeddings for both ner and laguage modeling

2.NER for Chinese Social Media

社交媒体的不正式性很明显对NLP系统造成了重大的困难，例如拼写错误，新颖的词以及非语法构造。中文也提出了更多的挑战，不是用字母而是用简写，缺乏很多线索，例如大写和标点符号，更缺乏显式的单词边界。另外，corpora要么使用传统的字符，要么使用简化后的字符，而社交媒体混合了他们。
baseline 是 Mao at al提出的，在SIGHAN 2008上实现了最好的结果，特征包含很多传统的英文特征，例如 character unigram and bigram

3 Embeddings for Chinese Text

Lexical Embedding可以捕捉语义和语法特征，在小规模数据集时，embedding很有用，因为是在大规模语料上跑过的。
共使用了三种 Embedding

word embedding:在weibo raw corpus使用分词进行训练
character embedding:在 training corpus上训练，失去了单词的context
Character and Position Embeddings: 首先分词，在不同的位置被视为不同的characeter 分离训练

4.joint trained objective

fine-tune也有它的缺点，比如可以武断地剥离在大规模语料训练得到的embedding

Jointly training the embeddings with the multi-part objectives allows the fine-tuned embeddings to further influence other embeddings
尽管是没有出现在训练的label data中的，可以有效地提高OOV问题。

本文在 ner和语言模型的双重目标下联合学习Embedding
有两个目标。

4.参数估计

使用word2vec预训练词向量，除非特别说明，否则采用word2vec默认设置。使用交替进行进行联合训练，使用早停应对过拟合，使用带有L2正则化的SGD，所有的超参数都在dev上进行微调。使用现成的Word2vec来做语言模型的目标

5. 数据集

有实体和名词性提及，有俩标准：

DEFT ERE (Linguistics Data Consortium, 2014)
Amazon Mechanical Turk ，具备gold-example确保高质量标注

共有四种实体：four major semantic types: person, organization, location and geo-political entity
构建了一个没有标注的数据集用于训练embedding

6.实验

有两种设置，只训练名词性提及，训练实体和名词性提及，不知道原来的模型究竟是咋样的呢。就简单的提高了，虽然还是很低哈哈哈哈。

牧童在路上

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Named Entity Recognition for Chinese Social Media with Jointly Trained Embedding 笔记

摘要中文NER主要针对正式文本，对于社交媒体的NER主要在英语上，本文标注了一个新的微博数据集，标注有名称和一些名词性提及1.介绍一个中文NER 传统是利用lexical embedding来提高NER性能，然而不像其他语言，我们不能使用自动分词来为中文单词赋值一个Embedding,这是不可信的，所以中文NER model都tag word2.NER for Chinese Social Media社交媒体的不正式性很明显对NLP系统造成了重大的困难，例如拼写错误，新颖的词以及非语法构造。中文也
复制链接

扫一扫

专栏目录