优化TextRank文本摘要，自定义关键词增加句子的权重

最新推荐文章于 2024-06-30 19:34:18 发布

LHboboo

最新推荐文章于 2024-06-30 19:34:18 发布

阅读量1.4k

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/u013153465/article/details/116536056

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

关于textRank的原理，我这边就不多介绍了，搜一下很多，我也不确定自己是否讲的有那些大佬清楚，我们主要关注在优化点

痛点：

最近在做文章的摘要项目，一天的摘要量估计在300万篇左右，所以直接放弃了seq2seq的生成时摘要方法，主要还是使用深度学习，速度和精度都达不到要求了。采用textrank是一种解决办法

1. 目前使用FastTextRank, 速度上基本达到了要求，

github链接：https://github.com/ArtistScript/FastTextRank

2. 但是我们自己的项目中需求点还有一个，就是很相近的文章需要生成不同的摘要。由于我们自己的文章主要是介绍产品的，所以一篇文章中可能每段的侧重点都不一样，可能是不同的产品。

所以需要对FastTextRank 进行改进

改进点：

直接来看代码：

from FastTextRank.FastTextRank4Sentence import FastTextRank4Sentence
import time

text = """麻省理工学院的研究团队为无人机在仓库中使用RFID技术进行库存查找等工作，创造了一种聪明的新方式。它允许公司使用更小，更安全的无人机在巨型建筑物中找到之前无法找到的东西。
使用RFID标签更换仓库中的条形码，将帮助提升自动化并提高库存管理的准确性。与条形码不同，RFID标签不需要对准扫描，标签上包含的信息可以更广泛和更容易地更改。它们也可以很便宜，尽管有优点，但是它具有局限性，对于跟踪商品没有设定RFID标准，“标签冲突”可能会阻止读卡器同时从多个标签上拾取信号。扫描RFID标签的方式也会在大型仓库内引起尴尬的问题。固定的RFID阅读器和阅读器天线只能扫描通过设定阈值的标签，手持式读取器需要人员出去手动扫描物品。
几家公司已经解决了无人机读取RFID的技术问题。配有RFID读卡器的无人机可以代替库存盘点的人物，并以更少的麻烦更快地完成工作。一个人需要梯子或电梯进入的高箱，可以通过无人机很容易地达到，无人机可以被编程为独立地导航空间，并且他们比执行大规模的重复任务的准确性和效率要比人类更好。
目前市场上的RFID无人机需要庞大的读卡器才能连接到无人机的本身。这意味着它们必须足够大，以支持附加硬件的尺寸和重量，使其存在坠机风险。麻省理工学院的新解决方案，名为Rfly，允许无人机阅读RFID标签，而不用捆绑巨型读卡器。相反，无人机配备了一个微小的继电器，它像Wi-Fi中继器一样。无人机接收从远程RFID读取器发送的信号，然后转发它读取附近的标签。由于继电器很小，这意味着可以使用更小巧的无人机，可以使用塑料零件，可以适应较窄的空间，不会造成人身伤害的危险。
麻省理工学院的Rfly系统本质上是对现有技术的一个聪明的补充，它不仅消除了额外的RFID读取器，而且由于它是一个更轻的解决方案，允许小型无人机与大型无人机做同样的工作。研究团队正在马萨诸塞州的零售商测试该系统。
"""
key_words = ["无人机"]
mod = FastTextRank4Sentence(use_w2v=False, use_stopword=True,
                            max_iter=100, tol=0.0001,
                            stop_words_file="stopwords.txt")
print("加载完成")
old_time =time.time()
print(mod.summarize(text, 5, key_words))
print(time.time() - old_time)

FastTextRank 直接调用summarize()方法即可进行测试，我这边没有采用word2vec的方式，word2vec需要自己整理语料，前期先不做。

代码中有个变量就是key_words, 输入的是关键词的集合

然后在summarize()中传入

FastTextRank4Sentence.py：

def summarize(self,text,n, key_words):
        text = text.replace('\n', '')
        text = text.replace('\r', '')
        text = util.as_text(text)#处理编码问题
        tokens=util.cut_sentences(text)
        #sentences用于记录文章最原本的句子，sents用于各种计算操作
        sentences, sents=util.cut_filter_words(tokens,self.__stop_words,self.__use_stopword)
        # 改进，如果包含关键词，加大权重
        weigth_sentences = []
        for _sentence in sentences:
            k = 0.5
            for _key_word in key_words:
                if _key_word in _sentence:
                    if len(_key_word) < len(sentences):
                        k += len(sentences) // len(key_words)
                    else:
                        k += 1
            weigth_sentences.append(k)
        if self.__use_w2v:
            sents = self.filter_dictword(sents)
        graph = self.create_graph_sentence(sents,self.__use_w2v)
        scores = util.weight_map_rank(graph,self.__max_iter,self.__tol, weigth_sentences)
        sent_selected = nlargest(n, zip(scores, count()))
        sent_index = []
        for i in range(n):
            sent_index.append(sent_selected[i][1])  # 添加入关键词在原来文章中的下标
        return [sentences[i] for i in sent_index], sent_index

在summarize（）方法中，先统计出关键词在句子中是否出现，出现一次初始权重加一次。添加的规则就是，当句子中出现了一个关键词，权重 + len(sentences)÷ len(key_words), sentences 表示分好的句子的集合

看图，在weight_map_rank() 中，我们将初始化好的权重传入

util.py：

def weight_map_rank(weight_graph,max_iter,tol, weigth_sentences):
    '''
    输入相似度的图（矩阵)
    返回各个句子的分数
    :param weight_graph:
    :return:
    '''
    # 初始分数设置为0.5
    #初始化每个句子的分子和老分数
    # scores = [0.5 for _ in range(len(weight_graph))]
    scores= weigth_sentences
    old_scores = [0.0 for _ in range(len(weight_graph))]
    denominator = caculate_degree(weight_graph)

    # 开始迭代
    count=0
    while different(scores, old_scores,tol):
        for i in range(len(weight_graph)):
            old_scores[i] = scores[i]
        #计算每个句子的分数
        for i in range(len(weight_graph)):
            scores[i] = calculate_score(weight_graph,denominator, i) + scores[i]
        count+=1
        if count>max_iter:
            break
    return scores

主要改变有2个地方：

第一个地方在

我们将socres 的初始化使用我们自己的权重

第二个地方：

计算scores和的时候，将初始化的权重加上

OK。完成

思想很简单，改动也很简单，效果有待验证，欢迎大家指正。

LHboboo

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
优化TextRank文本摘要，自定义关键词增加句子的权重

关于textRank的原理，我这边就不多介绍了，搜一下很多，我也不确定自己是否讲的有那些大佬清楚，我们主要关注在优化点痛点：最近在做文章的摘要项目，一天的摘要量估计在300万篇左右，所以直接放弃了seq2seq的生成时摘要方法，主要还是使用深度学习，速度和精度都达不到要求了。采用textrank是一种解决办法1. 目前使用FastTextRank, 速度上基本达到了要求，github链接：https://github.com/ArtistScript/FastTextRank2. 但是我
复制链接

扫一扫

专栏目录