第 22 卷 第 3 期 中文信息学报 Vol . 22 , No . 3
2008 年 5 月 J OU RN AL O F C H IN ESE IN FO RMA T ION PROCESSIN G May , 2008
文章编号 : (2008)
网络文本主题词的提取与组织研究
1 ,2 1 1
曾依灵 , 许洪波 , 白 硕
( 1. 中国科学院 计算技术研究所 智能软件部 北京 100 190 ;
2 . 中国科学院 研究生院 北京 100 190)
摘 要 : 网络信息的指数爆炸给人们获取与掌控信息带来了困扰 ,为了挖掘海量信息中的关键因子并以恰当的方
式进行组织 ,本文设计了网络文本主题词提取和组织算法 。该算法基于多级滤噪的切分词拼接 ,利用特定的噪音
库与滤噪策略严格控制拼接过程 ,在合理收录策略的挑选下 ,算法提取出了能够准确反映海量网络数据中关键因
子的主题词串。为清晰地组织主题词 ,建立主题词与网络事件的有机联系 ,设计了新的词聚类策略对主题词提取
结果进行处理 ,使表达同一热点的主题词合理地组织在一起 ,共同描述同一事件 。在以实际网络文本为语料的实
验中 ,算法表现出令人满意的性能 。
关键词 : 计算机应用 ; 中文信息处理 ;主题词提取 ;未登录词识别 ;切分词拼接 ;主题词聚类
中图分类号 : TP39 1 文献标识码 : A
Research on the Extraction and Organization of Key Phrases in Web Texts
ZEN G Yiling1 ,2 ,XU Hongbo 1 , BA I Shuo 1
( 1. Dep art ment of Int elligent Software , In stit ut e of Comp uting Technology ,
Chinese Academy of Sciences , Beij ing 100 190 , China ;
2 . Graduat e U niver sit y of Chinese Academy of Sciences , Beij ing 100 190 , China)
Abstract : The exponential explo sion of Int ernet information comp licat es human access to t ho se u seful information .
To det ect t he mo st import ant a sp ect s of t he va st information and manage t he it accor dingly , a key p hrase ext raction
algorit hm i s p ropo sed on t he ba si s of a multilevel segment ed wor d concat enation . Support ed by a cu stomized noi se
library and filt ering st rat egies , t he algorit hm i s cap