基于Python 实现智能文档摘要生成项目：从原理到实践

最新推荐文章于 2025-05-22 16:41:47 发布

计算机专家-学术裁缝

最新推荐文章于 2025-05-22 16:41:47 发布

阅读量461

点赞数 5

分类专栏：毕业论文文章标签： python 开发语言 bert 文章摘要

本文链接：https://blog.csdn.net/qq_33877849/article/details/148068636

版权

毕业论文同时被 3 个专栏收录

48 篇文章

订阅专栏

pytonh

14 篇文章

订阅专栏

科技前沿

7 篇文章

订阅专栏

请添加图片描述

智能文档摘要生成项目：从原理到实践

一、项目背景与需求分析

在信息爆炸的时代，文档数据呈指数级增长，高效获取核心内容成为迫切需求。智能文档摘要技术能够自动提炼关键信息，显著提升信息处理效率。本项目旨在开发一个基于Python的智能文档摘要工具，支持多格式文档输入，生成准确、连贯的内容摘要。

二、技术选型

（一）核心Python库

NLTK：提供分词、词性标注、命名实体识别等基础文本处理功能
TextRank4ZH：基于图算法的中文文本摘要库，实现关键词和关键句子提取
PyPDF2：用于解析PDF文件内容
Tkinter：Python标准GUI库，用于构建用户交互界面
Transformers（可选）：支持基于深度学习的高级摘要模型（如BERT）

（二）算法原理

TextRank算法基于PageRank思想，将文本中的句子视为图中的节点，通过句子间的语义相似度构建边权重。核心步骤包括：

文本分词与句子切分
构建句子相似度矩阵
迭代计算每个句子的PageRank值
按得分排序并提取关键句子

三、项目实现

（一）环境搭建

pip install nltk textrank4zh pypdf2

下载NLTK必要语料库：

import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

（二）核心代码实现

import tkinter as tk
from tkinter import filedialog, scrolledtext, ttk
import PyPDF2
from textrank4zh import TextRank4Sentence

class DocumentSummarizer:
    def __init__(self, root):
        self.root = root
        self.root.title("智能文档摘要生成器")
        self.root.geometry("800x600")
        self.root.resizable(True, True)
        
        # 初始化UI组件
        self.create_widgets()
        
    def create_widgets(self):
        # 文件选择区域
        file_frame = ttk.Frame(self.root, padding="10")
        file_frame.pack(fill=tk.X)
        
        ttk.Label(file_frame, text="选择文档:").pack(side=tk.LEFT, padx=5)
        self.file_path_var = tk.StringVar()
        ttk.Entry(file_frame, textvariable=self.file_path_var, width=50).pack(side=tk.LEFT, padx=5)
        ttk.Button(file_frame, text="浏览", command=self.select_file).pack(side=tk.LEFT, padx=5)
        
        # 控制区域
        control_frame = ttk.Frame(self.root, padding="10")
        control_frame.pack(fill=tk.X)
        
        ttk.Label(control_frame, text="摘要长度:").pack(side=tk.LEFT, padx=5)
        self.summary_length = tk.IntVar(value=5)
        ttk.Scale(control_frame, from_=1, to=20, orient=tk.HORIZONTAL, 
                 variable=self.summary_length, length=200).pack(side=tk.LEFT, padx=5)
        ttk.Label(control_frame, textvariable=self.summary_length).pack(side=tk.LEFT, padx=5)
        
        ttk.Button(control_frame, text="生成摘要", command=self.generate_summary).pack(side=tk.RIGHT, padx=5)
        
        # 原始文本区域
        ttk.Label(self.root, text="原始文本:").pack(anchor=tk.W, padx=10)
        self.source_text = scrolledtext.ScrolledText(self.root, wrap=tk.WORD, height=10)
        self.source_text.pack(fill=tk.BOTH, expand=True, padx=10, pady=5)
        
        # 摘要结果区域
        ttk.Label(self.root, text="生成摘要:").pack(anchor=tk.W, padx=10)
        self.summary_text = scrolledtext.ScrolledText(self.root, wrap=tk.WORD, height=10)
        self.summary_text.pack(fill=tk.BOTH, expand=True, padx=10, pady=5)
        
        # 状态栏
        self.status_var = tk.StringVar(value="就绪")
        ttk.Label(self.root, textvariable=self.status_var, relief=tk.SUNKEN, anchor=tk.W).pack(side=tk.BOTTOM, fill=tk.X)
    
    def select_file(self):
        file_path = filedialog.askopenfilename(
            filetypes=[("文本文件", "*.txt"), ("PDF文件", "*.pdf"), ("所有文件", "*.*")]
        )
        if file_path:
            self.file_path_var.set(file_path)
            self.load_document(file_path)
    
    def load_document(self, file_path):
        try:
            self.status_var.set(f"正在加载文件: {file_path}")
            self.root.update()
            
            if file_path.endswith('.txt'):
                text = self.read_text_file(file_path)
            elif file_path.endswith('.pdf'):
                text = self.read_pdf_file(file_path)
            else:
                self.status_var.set("不支持的文件格式")
                return
                
            self.source_text.delete(1.0, tk.END)
            self.source_text.insert(tk.END, text)
            self.status_var.set(f"文件加载完成，共 {len(text)} 字符")
            
        except Exception as e:
            self.status_var.set(f"加载文件失败: {str(e)}")
    
    def read_text_file(self, file_path):
        with open(file_path, 'r', encoding='utf-8') as file:
            return file.read()
    
    def read_pdf_file(self, file_path):
        text = ""
        with open(file_path, 'rb') as file:
            reader = PyPDF2.PdfReader(file)
            for page in reader.pages:
                text += page.extract_text()
        return text
    
    def generate_summary(self):
        try:
            self.status_var.set("正在生成摘要...")
            self.root.update()
            
            text = self.source_text.get(1.0, tk.END).strip()
            if not text:
                self.status_var.set("没有可处理的文本")
                return
                
            summary = self._generate_summary(text, self.summary_length.get())
            self.summary_text.delete(1.0, tk.END)
            self.summary_text.insert(tk.END, summary)
            
            self.status_var.set(f"摘要生成完成，共 {len(summary)} 字符")
            
        except Exception as e:
            self.status_var.set(f"生成摘要失败: {str(e)}")
    
    def _generate_summary(self, text, summary_length):
        tr4s = TextRank4Sentence()
        tr4s.analyze(text=text, lower=True, source='all_filters')
        
        # 获取关键句子
        key_sentences = tr4s.get_key_sentences(num=summary_length)
        
        # 按原始顺序排序
        key_sentences.sort(key=lambda x: x.index)
        
        # 构建摘要
        return "\n\n".join([sentence.sentence for sentence in key_sentences])

if __name__ == "__main__":
    root = tk.Tk()
    app = DocumentSummarizer(root)
    root.mainloop()

四、项目测试与优化

（一）测试方案

测试文档类型：
- 学术论文（3000-5000字）
- 新闻报道（800-1500字）
- 商务报告（2000-4000字）
- 技术文档（包含专业术语）
评估指标：
- 内容覆盖率：摘要是否包含原文核心观点
- 可读性：生成的摘要句子是否通顺连贯
- 信息密度：摘要是否简洁且有信息量