计算所词性标注集

最新推荐文章于 2022-05-08 20:43:48 发布

kker__

最新推荐文章于 2022-05-08 20:43:48 发布

阅读量2.7k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理

本文链接：https://blog.csdn.net/ghui23/article/details/51472766

版权

说明

计算所汉语词性标记集（共计99个，22个一类，66个二类，11个三类）主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集：
1. 北大《人民日报》语料库词性标记集；
2. 北大2002新版词性标记集（草稿）；
3. 清华大学汉语树库词性标记集；
4. 教育部语用所词性标记集（国家推荐标准草案2002版）；
5. 美国宾州大学中文树库（ChinesePennTreeBank）词性标记集；
由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练，因此本
词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本，并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。
本标记集在制定过程中主要考虑了以下几方面的因素：
1. 有助于提高汉语词法分析器的切分和标注正确率；
2. 有助于提高汉语句法分析器的正确率；
3. 有助于汉英机器翻译系统进行翻译；
4. 易于从北大《人民日报》语料库词性标记集进行转换；
5. 对于语法功能不同的词，在不造成词法分析和句法分析歧义区分困难的情况下，尽可能细分子类。
基于以上考虑，我们在标注过程中尽量避免那些容易出错的词性标记，而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。例如，在动词的子类中，我们参考了宾州大学中文树库的做法，把汉语动词“是”和“有”分别做成单独的标记，而没有采用“系动词”的标记。因为同样是“是”这个动词，其句法功能很多

最低0.47元/天解锁文章

kker__

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
计算所词性标注集

代码名称帮助记忆的诠释Ag 形语素形容词性语素。形容词代码为a，语素代码ｇ前面置以A。a 形容词取英语形容词adjective的第1个字母。　ad 副形词直接作状语的形容词。形容词代码a和副词代码d并在一起。　an 名形词具有名词功能的形容词。形容词代码a和名词代码n并在一起。 b 区别词
复制链接

扫一扫