python数据挖掘实战笔记——文本挖掘(10):自动摘要

本文介绍了如何使用Python进行自动摘要,通过余弦相似度算法提取文章的关键句子。首先,理解摘要和自动摘要是什么,接着进行词频统计、分句,计算句子与文章的余弦相似度,并选取相似度最高的句子组成摘要。代码实现中涉及分词、构建词频矩阵等步骤,最终展示了成功提取的摘要效果。
摘要由CSDN通过智能技术生成

概念:

摘要: 全面准确地反映某一文献中心内容的简单连贯的短文。
自动摘要: 利用计算机自动地从原始文件中提取摘要。

算法原理: 余弦相似定理
在这里插入图片描述

算法步骤:

  • 获取需要摘要的文章
  • 对该文章进行词频统计
  • 对该文章进行分句,一般采用“,"、"."、?"进行分句。
  • 计算分句文章之间的余弦相似度。
  • 取相似度最高的分句,作为文章的摘要。

下面是具体代码实现:
首先导入包:

#导入需要的包
import re
import os
import jieba
import codecs
import numpy
import pandas
import os.path
from sklearn.metrics import pairwise_distances
from sklearn.feature_extraction.text import CountVectorizer

然后和之前操作一样,构建语料库:

#构建语料库
#读取文件
filePaths = [];
fileContents = [];
for root, dirs, files in os.walk(
 
  • 0
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值