自动文本摘要论文总结九(A complex network approach to text summarization)

  本文介绍了基于复杂网络的自动文本摘要的方法。

  具体分为四步骤:

  1 将文章进行预处理,根据句子分隔符将句子分开,并将名词提取出。

  2 根据文章构建成两个N*N的矩阵,一个是表示邻接关系的矩阵,一个是表示权重的矩阵,分别叫做A和W,N为句子的个数。

  3 计算节点的值

  4 根据一定的算法将句子进行排序,然后取出前n个句子组成摘要。

  文中提出了7种网络测量的算法和14中句子排序算法,具体介绍如下:

  1 Degree strategies: CN-Degree and CN-Strength

    根据与节点i相连的节点的个数作为节点i的值,即Ki = ∑aij,aij为矩阵A中的元素。也可以用W中的元素,即Si = ∑wij。

    Ki和Si越大,说明句子越重要,所以相应的排序就是取前n个最大的Ki(CN-Degree)或Si(CN-Strength)。

  2 Shortest path strategies: CN-SP, CN-SPwc and CN SPwi

    计算每个节点到其他所有节点的距离的总和,即SPi = ∑dij,dij为矩阵A或W中i和j的最短路径。如果是W,生成两个矩阵Wwc和Wwr。

    Wwcij = 0 if wij = 0, or Wwc = Wmax - wij + 1 if wij > 0;

    Wwrij = 0 if wij = 0, or Wwr = 1 / wij if wij > 0;

    选取n个最小的SPi的句子,相对应CN-SP, CN-SPwc and CN-SPwi 。

  3 Locality index strategy: CN-LI

    Li = Niint/Niint + Niext; Niint为与节点i相邻的Ki个邻居的相互之间的链接个数加上Ki;Niext为与节点i相邻的Ki个邻居为外界其它节点的链接总数。

    取前n个最大的Li的句子。

  4 d-Rings strategies: CN Ringsl, CN Ringsk and CN Ringslk

    将图化成子图

    

    先选择度最大的节点i,然后根据一下三种方法从它的d-rings中选择句子。

    1)选择第一句

    2)选择度最大的

    3)selects from every RdðhubÞ only the nodes with degree no lower than the average network degree, and also extracts the sentences that appear first in the source text when the outermost d-ring does not fit into the extract.

  5 k-Cores strategies: CN Coresl and CN Cores

    

转载于:https://www.cnblogs.com/yangmier/archive/2012/03/18/2404664.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值