主题词是计算机自动提取,网络文本主题词的提取与组织研究-中文信息学报.pdf...

第 22 卷  第 3 期 中文信息学报 Vol . 22 , No . 3

2008 年 5 月 J OU RN AL O F C H IN ESE IN FO RMA T ION PROCESSIN G May , 2008

文章编号 : (2008)

网络文本主题词的提取与组织研究

1 ,2 1 1

曾依灵 , 许洪波 , 白 硕

( 1. 中国科学院 计算技术研究所 智能软件部 北京 100 190 ;

2 . 中国科学院 研究生院 北京 100 190)

摘  要 : 网络信息的指数爆炸给人们获取与掌控信息带来了困扰 ,为了挖掘海量信息中的关键因子并以恰当的方

式进行组织 ,本文设计了网络文本主题词提取和组织算法 。该算法基于多级滤噪的切分词拼接 ,利用特定的噪音

库与滤噪策略严格控制拼接过程 ,在合理收录策略的挑选下 ,算法提取出了能够准确反映海量网络数据中关键因

子的主题词串。为清晰地组织主题词 ,建立主题词与网络事件的有机联系 ,设计了新的词聚类策略对主题词提取

结果进行处理 ,使表达同一热点的主题词合理地组织在一起 ,共同描述同一事件 。在以实际网络文本为语料的实

验中 ,算法表现出令人满意的性能 。

关键词 : 计算机应用 ; 中文信息处理 ;主题词提取 ;未登录词识别 ;切分词拼接 ;主题词聚类

中图分类号 : TP39 1     文献标识码 : A

Research on the Extraction and Organization of Key Phrases in Web Texts

ZEN G Yiling1 ,2 ,XU Hongbo 1 , BA I Shuo 1

( 1. Dep art ment of Int elligent Software , In stit ut e of Comp uting Technology ,

Chinese Academy of Sciences , Beij ing 100 190 , China ;

2 . Graduat e U niver sit y of Chinese Academy of Sciences , Beij ing 100 190 , China)

Abstract : The exponential explo sion of Int ernet information comp licat es human access to t ho se u seful information .

To det ect t he mo st import ant a sp ect s of t he va st information and manage t he it accor dingly , a key p hrase ext raction

algorit hm i s p ropo sed on t he ba si s of a multilevel segment ed wor d concat enation . Support ed by a cu stomized noi se

library and filt ering st rat egies , t he algorit hm i s cap

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值