多文档自动摘要算法实现(是否基于新闻文本还需要考虑)

中文多文档自动摘要

第一步,获取语料(数据库,子旋师兄)和测试集。(泽枫)

第二步,使用mead(java,传懋)和sumbasic(python,柏棋)方法实现一下看看效果;(瑞滨)

第三步,使用遗传算法和人工蜂群算法实现看效果怎样;(泽枫)

第四步,在阵雨师兄暑假提取关键词任务的基础上,由关键词拓展为自动摘要,进而拓展为多文档自动摘要;(柏棋)

第五步,在阵雨师兄暑假提取关键词特征的基础上,将其丢入sklearn分类器训练,同时实现learning to rank 的词排序方法,由关键词扩展为自动摘要,进而扩展为多文档自动摘要。(柏棋)

第六步,将多文档自动摘要的各类算法分别迁移到英文和印尼语上,看效果如何。(泽枫,瑞滨,柏棋)

第七步,实现可视化。(瑞滨)

第八步,写paper。(泽枫,瑞滨,柏棋——负责写好各自算法的那部分论文,若妍负责整合编辑和排版,加上补充说明)

 

SumBasic对每个非停用词赋予一个权重,句子的分值定义为其中词汇的平均权值。词汇的初始权重即为词频,在该词被选进摘要后,其权重随进入摘要的次数呈指数级下降,最终该算法应用于项目组的印尼舆情系统(已获得国家级的软件著作权)中;

转载于:https://www.cnblogs.com/flippedkiki/p/7590152.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值