主题词是计算机自动提取,网络文本主题词的提取与组织研究-中文信息学报.pdf...

关巍

于 2021-07-22 01:14:42 发布

阅读量108

点赞数

文章标签：主题词是计算机自动提取

第 22 卷　第 3 期中文信息学报 Vol . 22 , No . 3

2008 年 5 月 J OU RN AL O F C H IN ESE IN FO RMA T ION PROCESSIN G May , 2008

文章编号 : (2008)

网络文本主题词的提取与组织研究

1 ,2 1 1

曾依灵 , 许洪波 , 白硕

( 1. 中国科学院计算技术研究所智能软件部北京 100 190 ;

2 . 中国科学院研究生院北京 100 190)

摘　要 : 网络信息的指数爆炸给人们获取与掌控信息带来了困扰 ,为了挖掘海量信息中的关键因子并以恰当的方

式进行组织 ,本文设计了网络文本主题词提取和组织算法。该算法基于多级滤噪的切分词拼接 ,利用特定的噪音

库与滤噪策略严格控制拼接过程 ,在合理收录策略的挑选下 ,算法提取出了能够准确反映海量网络数据中关键因

子的主题词串。为清晰地组织主题词 ,建立主题词与网络事件的有机联系 ,设计了新的词聚类策略对主题词提取

结果进行处理 ,使表达同一热点的主题词合理地组织在一起 ,共同描述同一事件。在以实际网络文本为语料的实

验中 ,算法表现出令人满意的性能。

关键词 : 计算机应用 ; 中文信息处理 ;主题词提取 ;未登录词识别 ;切分词拼接 ;主题词聚类

中图分类号 : TP39 1 　　　　文献标识码 : A

Research on the Extraction and Organization of Key Phrases in Web Texts

ZEN G Yiling1 ,2 ,XU Hongbo 1 , BA I Shuo 1

( 1. Dep art ment of Int elligent Software , In stit ut e of Comp uting Technology ,

Chinese Academy of Sciences , Beij ing 100 190 , China ;

2 . Graduat e U niver sit y of Chinese Academy of Sciences , Beij ing 100 190 , China)

Abstract : The exponential explo sion of Int ernet information comp licat es human access to t ho se u seful information .

To det ect t he mo st import ant a sp ect s of t he va st information and manage t he it accor dingly , a key p hrase ext raction

algorit hm i s p ropo sed on t he ba si s of a multilevel segment ed wor d concat enation . Support ed by a cu stomized noi se

library and filt ering st rat egies , t he algorit hm i s cap

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
主题词是计算机自动提取,网络文本主题词的提取与组织研究-中文信息学报.pdf...

第 22 卷　第 3 期中文信息学报 Vol . 22 , No . 32008 年 5 月 J OU RN AL O F C H IN ESE IN FO RMA T ION PROCESSIN...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。