jieba库用于自动摘要生成

最新推荐文章于 2023-10-25 17:45:57 发布

zqqcee

最新推荐文章于 2023-10-25 17:45:57 发布

阅读量1.6k

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/RRie1/article/details/103935897

版权

自动生成摘要

摘要自动生成

摘要自动生成

// An highlighted block
# -*- coding: utf-8 -*-
import jieba,copy,re,codecs
from collections import Counter


title='海上钢琴师'


#title = '智能金融起锚:文因、数库、通联瞄准的kensho革命 '   #最后生成的东西和这个题目有关
# coding = gbk
#text = '''推进技术从精美的手表到书架式扬声器，快速发展的技术不断推出新的用途和先进的小工具，并不断推向市场。这就是我们今天世界的现实，你可以花一整天的时间通过销售科技产品的商店，这可以把你的家变成一个智能的房子。以下是最新的小工具，它们将让您走在科技前沿，让您的生活更美好：FITBIT ALTA HR Fitbit Alta HR是一款可靠的健身追踪器，配有足够的电池汁，可让您长达一周。它监控您的步数，睡眠时间，燃烧的卡路里数和心率。腕带采用OLED显示屏，可与计算机无线同步。 NINTENDO NES CLASSIC EDITION这款Nintendo迷你游戏机通过为现代科技增添经典品味，带您回到过去。它包含30个经典的8位游戏，支持双人游戏，并允许怀旧游戏玩家通过HDMI连接到任何电视。 SHINOLA书架音箱新Shinola书架音箱是Shinola与工作室监听专家Barefoot Sound合作的成果。自供电双向扬声器不仅可以带来声音，还可以为客厅增添色彩，这要归功于它们整洁的手工橡木橱柜。它们配备了蓝牙，AUX和USB输入，为您提供一系列选项。 DELL XPS 13（2018）时尚。令人印象深刻。强大。持久。这款13英寸笔记本电脑具有足够的冲击力，可以方便地处理任何您扔的东西。 XPS 13的机身比几乎所有类型的笔记本电脑都小，几乎没有边框屏幕。 SAMSUNG GALAXY S9 +如果你需要的设备提供超出现有标准的东西并定义了高质量，那么你不应该看过三星Galaxy S9 +。它可能与S8 +有所不同，但这款智能手机本身就是一流的领导者。作为三星最新推出的产品，S9 +配备6.22英寸无限显示屏，配备革命性的2倍变焦背式摄像头，可捕捉逼真的图像。其3500mAh电池可在Wi-Fi和4G连接上为您提供长达15小时的互联网使用时间。 APPLE TV 4K苹果电视4K可以说是目前市场上最好的流媒体。该小工具可让您以4K HDR方式观看喜爱的节目，并提供远程和Siri语音选项，以获得优质体验。 SONOS PLAY：5无线多房间扬声器不会比Play：5更大。 Sonos的新产品不仅可以为您的房间充满丰富的声音，还可以为您提供全球80多种流媒体服务。您可以将小工具连接到Amazon Echo或Dot。有一个3.5毫米音频插座，旨在让您连接非流音频设备。'''
file_object = open('comment.txt',encoding='utf8')
try:
    text= file_object.read()
finally:
    file_object.close()
# summary = pyhanlp.HanLP.extractSummary(text, 3)
# print(summary)

class Summary():
    #**** 切分句子 ************
    def cutSentence(self,text):
        sents = []
        text = re.sub(r'\n+','。',text)  # 换行改成句号（标题段无句号的情况）
        text = text.replace('。。','。')  # 删除多余的句号
        text = text.replace('？。','。')  #
        text = text.replace('！。','。')  # 删除多余的句号
        sentences = re.split(r'。|！|？|】|；',text) # 分句         （碰到句号或感叹号或问号或】或分号就切分开）
   #     print(sentences)
        sentences = sentences[:-1] # 删除最后一个句号后面的空句
        for sent in sentences:
            len_sent = len(sent)
            if len_sent < 4:  # 删除换行符、一个字符等
                continue
            # sent = sent.decode('utf8')
            sent = sent.strip('　 ')
            sent = sent.lstrip('【')
            sents.append(sent)
      #      print(sent) #  sent就是用句号，感叹号等等分开后的句子
        return sents

    #**** 提取特征词 **********************
    def getKeywords(self,title,sentences,n=10):
        words = []
        #**