之前用R做过一些文本处理的工作,主要就是对新闻做做分类、提取关键词之类的,通过jiebaR包和自定义词典可以轻松地完成大部分工作,分类也就是整理一下各类别的特征然后跑一个分类模型就能得到比较满意的结果,唯独自动生成摘要这块一直没有找到很好的解决方法,没有找到R中现成的工具包。由于写代码能力也比较捉鸡,所以参考了java和python中的代码之后还是无法写出像样的程序出来。于是最终的解决方案就是把文章的前几句话截取出来当成摘要,效果可想而知...
随着对R和python越来越熟悉,并且最近读到了一篇详细讲解python实现textRank算法的文章(《你还在被标题党蒙骗吗?是时候试试文本摘要技术了(附源码)》),于是动手试了一下将其改成R代码,经过一番“艰苦”的搬运之后终于能在R中实现自动提取摘要的功能了。
textRank算法的原理就不过多介绍了(想了解的可以参考