摘要
中文NER主要针对正式文本,对于社交媒体的NER主要在英语上,本文标注了一个新的微博数据集,标注有名称和一些名词性提及
1.介绍
一个中文NER 传统是利用lexical embedding来提高NER性能,然而不像其他语言,我们不能使用 没有自动分词来为中文单词赋值一个Embedding,这是不可信的,所以中文NER model都tag characters。
本文
joint train embeddings for both ner and laguage modeling
2.NER for Chinese Social Media
社交媒体的不正式性很明显对NLP系统造成了重大的困难,例如拼写错误,新颖的词以及非语法构造。中文也提出了更多的挑战,不是用字母而是用简写,缺乏很多线索,例如大写和标点符号,更缺乏显式的单词边界。另外,corpora要么使用传统的字符,要么使用简化后的字符,而社交媒体混合了他们。
baseline 是 Mao at al提出的,在SIGHAN 2008上实现了最好的结果,特征包含很多传统的英文特征,例如 character unigram and bigram
3 Embeddings for Chinese Text
Lexical Embedding
可以捕捉语义和语法特征,在小规模数据集时,embedding很有用,因为是在大规模语料上跑过的。
共使用了三种 Embedding
- word embedding:在weibo raw corpus使用分词进行训练
- character embedding:在 training corpus上训练,失去了单词的context
- Character and Position Embeddings: 首先分词,在不同的位置被视为不同的characeter 分离训练
4.joint trained objective
fine-tune也有它的缺点,比如可以武断地剥离在大规模语料训练得到的embedding
Jointly training the embeddings with the multi-part objectives allows the fine-tuned embeddings to further influence other embeddings
尽管是没有出现在训练的label data中的,可以有效地提高OOV问题。
本文在 ner和语言模型的双重目标下联合学习Embedding
有两个目标。
4.参数估计
使用word2vec预训练词向量,除非特别说明,否则采用word2vec默认设置。使用交替进行进行联合训练,使用早停应对过拟合,使用带有L2正则化的SGD,所有的超参数都在dev上进行微调。使用现成的Word2vec来做语言模型的目标
5. 数据集
有实体和名词性提及,有俩标准:
- DEFT ERE (Linguistics Data Consortium, 2014)
- Amazon Mechanical Turk ,具备gold-example确保高质量标注
共有四种实体:four major semantic types: person, organization, location and geo-political entity
构建了一个没有标注的数据集用于训练embedding
6.实验
有两种设置,只训练名词性提及,训练实体和名词性提及,不知道原来的模型究竟是咋样的呢。就简单的提高了,虽然还是很低哈哈哈哈。