基于标题分类的主题句提取方法
代码实现地址:点击打开链接
基于标题分类的主题句提取方法可描述为: 给定一篇新闻报道, 计算标题与新闻主题词集的相似度, 判断标题是否具有提示性。对于提示性标题,抽取新闻报道中与其最相似的句子作为主题句; 否则, 综合利用多种特征计算新闻报道中句子的重要性, 将得分最高的句子作为主题句。
算法过程:
1. 构造新闻的主题词集
(1) 对于爬取的有标签的或关键词的文章,将标签作为主题词集的一部分。
(2) 对文本做预处理,分句、分词并去除停用词,词性过滤、词频过滤。
(3) 使用TF-IDF计算文章中每个词的权重,该处主要是计算词的权重,也可以使用其他方法如word2vec,进行主题词提取。然后选取K个词作为主题词集。加上标签共选20个词作为每篇文章的主题词集。
2. 标题分类
将标题分为两类,一类是有提示性,一类是没有提示性。计算标题与主题词集的相似度。
&