Named Entity Recognition for Chinese Social Media with Jointly Trained Embedding 笔记

摘要

中文NER主要针对正式文本,对于社交媒体的NER主要在英语上,本文标注了一个新的微博数据集,标注有名称和一些名词性提及

1.介绍

一个中文NER 传统是利用lexical embedding来提高NER性能,然而不像其他语言,我们不能使用 没有自动分词来为中文单词赋值一个Embedding,这是不可信的,所以中文NER model都tag characters。
本文

joint train embeddings for both ner and laguage modeling

2.NER for Chinese Social Media

社交媒体的不正式性很明显对NLP系统造成了重大的困难,例如拼写错误,新颖的词以及非语法构造。中文也提出了更多的挑战,不是用字母而是用简写,缺乏很多线索,例如大写和标点符号,更缺乏显式的单词边界。另外,corpora要么使用传统的字符,要么使用简化后的字符,而社交媒体混合了他们。
baseline 是 Mao at al提出的,在SIGHAN 2008上实现了最好的结果,特征包含很多传统的英文特征,例如 character unigram and bigram

3 Embeddings for Chinese Text

Lexical Embedding可以捕捉语义和语法特征,在小规模数据集时,embedding很有用,因为是在大规模语料上跑过的。
共使用了三种 Embedding

  • word embedding:在weibo raw corpus使用分词进行训练
  • character embedding:在 training corpus上训练,失去了单词的context
  • Character and Position Embeddings: 首先分词,在不同的位置被视为不同的characeter 分离训练

4.joint trained objective

fine-tune也有它的缺点,比如可以武断地剥离在大规模语料训练得到的embedding

Jointly training the embeddings with the multi-part objectives allows the fine-tuned embeddings to further influence other embeddings
尽管是没有出现在训练的label data中的,可以有效地提高OOV问题。

本文在 ner和语言模型的双重目标下联合学习Embedding
有两个目标。

4.参数估计

使用word2vec预训练词向量,除非特别说明,否则采用word2vec默认设置。使用交替进行进行联合训练,使用早停应对过拟合,使用带有L2正则化的SGD,所有的超参数都在dev上进行微调。使用现成的Word2vec来做语言模型的目标

5. 数据集

有实体和名词性提及,有俩标准:

  • DEFT ERE (Linguistics Data Consortium, 2014)
  • Amazon Mechanical Turk ,具备gold-example确保高质量标注

共有四种实体:four major semantic types: person, organization, location and geo-political entity
构建了一个没有标注的数据集用于训练embedding

6.实验

有两种设置,只训练名词性提及,训练实体和名词性提及,不知道原来的模型究竟是咋样的呢。就简单的提高了,虽然还是很低哈哈哈哈。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值