新闻摘要系统

本文探讨了新闻摘要系统的构建,包括抽取式摘要与概述式摘要两种方法。抽取式摘要通过选择文档中最重要的句子来生成摘要,而概述式摘要则使用自然语言生成技术重新撰写文档关键信息。文章还深入讨论了中心性和权威性概念在确定句子重要性中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考:https://www.kuxiao.cn/course/pc-course-learning.html?cid=C59a7d12ae27ce170e7af709d

构建新闻爬取系统

8992321-50f6d3916cbb695b.png

搭建新闻摘要系统

8992321-d93d766821720235.png

摘要系统原理

两种摘要系统

  • 抽取式摘要 (Extractive Summarization)
    • 输入:文档
    • 输出:由最重要的若干句子按出现顺序展示的文档
  • 概述式摘要 (Abstractive Summarization)
    • 输入:文档
    • 输出:根据最重要内容采用自然语言生成的文档

抽取式摘要原理

怎样定义句子的重要性?

  • 重要性(来自社会网络的概念)
    – 中心性
    – 权威性
  • 如何将文档看作一个社会网络?
    – 每个句子是一个社会参与者
    – 句子之间通过共同单词构成一种关系

中心性

  • 重要的参与者是连接到或涉及到大量其他参与者的参与者。
  • 在组织中具有大量联系人或与很多其他人通信的人比较重要。
  • 中心参与者是牵涉到大量连接中的参与者。
  • 常见中心性度量
    – 度中心性: 中心参与者是拥有与其他参与者的链接最多的参与者。
    – 接近中心性: 中心参与者是到其他参与者距离最短的参与者。
    – 中介中心性: 中介性用来度量参与者对于其他结点对的控制能力。如果参与者处在非常多结点的交互路径上, 那么它就是一个重要的参与者。

权威性

  • 与中心性的区分
    – 中心性主要考虑发出的联系 ( 链出链接)
    – 权威性主要考虑接受的联系 ( 链入链接).

  • 一个权威的参与者是被大量链接指向的参与者。

  • 权威度量
    – 度权威: 参与者具有越多链入链接, 就越有权威。
    – 邻近权威: 如果能够到达参与者i的参与者与i的平均距离越短, i就越有权威。
    – 等级权威是包含PageRank在内的大多数网页链接分析算法的基础。

  • 等级权威
    • 度权威和邻近权威中, 一个重要的因素被忽略了
    – 某些拥有投票权的参与者的突出性
    • 在现实世界中, 一个被某一重要人物选中的人 i 比另一个被相对不重要的人选中的人更加有权威
    – 比如, 一个公司的CEO投给某人的一票肯定比一个普通工人投的一票更重要
    • 如果一个参与者的影响范围内充满了其他有权威的参与者, 那么他自己的权威显然也应该很高
    –因此一个参与者的权威受其牵涉的参与者的等级所影响
    • 根据这个直观认识, 等级权威PR(i)定义为指向i的链接的权威的线性组合:

8992321-185982e9057b7bdf

PageRank

  • PageRank(1998)是Web链接分析的统治方法
    – 非查询相关的网页分析方式
    – 抵抗网页作弊的能力
    – Google巨大的商业成功

• PageRank利用Web的庞大链接结构作为单个网页价值或质量的参考。
• PageRank将网页x指向网页y的链接当作是一种投票行为,由网页x投给网页y。
• PageRank考虑网页的投票数和网页的重要性,重要网页投出的选票使得接收这些选票的网页更加重要。

体现社会网络中所提到的等级权威的思想

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值