第 21 卷 第 1 期 2007 年 1 月 中文信息学报 JOURNAL OF CHINESE INFORMA TION PROCESSIN G Vol. 21 , No. 1 Jan. , 2007 文章编号 : 100320077(2007) 010079206 编者按 中国中文信息学会于 2006 年 8 月在沈阳航空工业学院人机智能研究中心成功地召开了“第三届全国学生计算语言学研讨会(SWCL2006)”。会议的程序委员会向本刊推荐出八篇优秀论文(经专家评审后 ,作者又做了修改) ,编辑部得到授权 ,在此发表 ,以飨读者。 中文语义角色标注的特征工程 刘怀军 ,车万翔 ,刘 挺 (哈尔滨工业大学 信息检索实验室 ,黑龙江 哈尔滨 150001) 摘 要 : 基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视 ,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点 ,在英文语义角色标注特征的基础上 ,提出了一些更有效的新特征和组合特征 : 例如 ,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等 ,并在Chinese Proposition Bank (CPB) 语料数据上 ,使用最大熵分类器进行了实验 ,系统 F2Score 由 89. 76 %增加到 91. 31 %。结果表明 ,这些新特征和组合特征显著提高了系统的性能。因此 ,目前进行语义角色标注应集中精力寻找丰富有效的特征。 关键词 : 计算机应用 ;中文信息处理 ;语义分析 ;语义角色标注 ;特征工程 ;最大熵分类器中图分类号 : TP391 文献标识码 : A Feature Engineering for Chinese Semantic Role Labeling LIU Huai2jun , CHE Wan2xiang , LIU Ting(Information Retrieval Laboratory , Haerbin Institute of Technology , Haerbin , Heilongjiang 150006 , China)Abstract : In the natural language processing field , researchers have experienced a growth of interest in semantic role labeling by applying statistical and machine2learning methods. Using rich features is the most important part of semantic parsing system. In this paper , some new effective features and combination features are proposed , such as next word of the constituent , predicate and phrase type combination , predicate class and path combination , and so on. And then we report the experiments on the dataset from Chinese Proposition Bank (CPB) . After these new features use