关键词抽取

最新推荐文章于 2024-03-13 20:03:34 发布

YingJingh

最新推荐文章于 2024-03-13 20:03:34 发布

阅读量359

点赞数 1

分类专栏：论文复现记录文章标签： python

本文链接：https://blog.csdn.net/Hekena/article/details/126320669

版权

论文复现记录专栏收录该内容

35 篇文章 2 订阅

订阅专栏

常用技术：TF-IDF、TextRank
整体上，关系词抽取方法，大致可以分为3类，基于统计的方法、基于图的方法、基于主题的方法、基于深度学习的方法，为了提高应用的准确率，一般是多种方法结合使用，比如，使用TF-IDF修正权重。
在这里插入图片描述

参考文献：自动关键词抽取研究综述

本机地址：E:\python project\pythonProject_draftKG\关键词抽取
git地址：git

关键词抽取结果

TF-IDF

id,key
0,生物实验有效载荷防护安全等级载人屏障材料样品航天
1,有效载荷测试空间站脱气评价倍频程限值医学要求污染物
2,接地空间站舱体搭接回线电阻设备绝缘隔离安装
3,仿真飞行器轨道追踪参数软件对接模型试验轨道控制
4,软件计划质量保证审核文件文档资料评审要求验证叙述
5,项目软件估算报告应该项目经理工作活动进展阶段
6,天线方向检验增益鉴定相位测量电平极化测试
7,温度试验动力源工作样品高度接通规定步骤电源
8,磁带测试电平记录信号重放磁道输出波长磁电
9,文件要素示例编号符号表述标准化给出标准脚注
10,润滑轴承润滑脂固体润滑油转动预紧寿命摩擦部件
11,样品实验封装材料检验坩埚制备材料科学工艺固体
12,相机摄影图像试验元素测量近景检查点行星地形

TextRank

fname,key
CMS 10-2015载人航天工程有效载荷生物安全通用要求.txt,生物应实验有效载荷材料防护设计样品载人进行
CMS 103 空间站有效载荷医学要求与评价方法.txt,有效载荷测试要求应空间站评价标准脱气结果满足
CMS 40-2017 空间站接地要求.txt,应设备接地空间站舱体搭接电阻回线安装结构
CMS 81 载人航天器交会对接仿真试验方法第6部分：全任务联合仿真试验.txt,参数飞行器试验轨道追踪软件对接系统模型目标
ESA PSS-01-101.txt,软件应计划文件要求质量保证验证设计方法进行
ESA-PSS-05-08.txt,项目工作软件报告是应该包方法估算活动
G1035.txt,天线应方向图测量产品检验要求进行环境
G150-6.txt,试验温度工作样品规定高度条件设备标准表
G383-17A.txt,测试磁带记录电平信号输出标准重放磁电样品

TF-IDF实现关键词抽取

#参考：https://github.com/AimeeLee77/keyword_extraction
import os
import sys,codecs
import pandas as pd
import numpy as np
import jieba.posseg
import jieba.analyse
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
"""
       TF-IDF权重：
           1、CountVectorizer 构建词频矩阵
           2、TfidfTransformer 构建tfidf权值计算
           3、文本的关键字
           4、对应的tfidf矩阵
"""
# 数据预处理操作：分词，去停用词，词性筛选
def dataPrepos(text, stopkey):
    l = []
    pos = ['n', 'nz', 'v', 'vd', 'vn', 'l', 'a', 'd']  # 定义选取的词性
    seg = jieba.posseg.cut(text)  # 分词
    for i in seg:
        if i.word not in stopkey and i.flag in pos:  # 去停用词 + 词性筛选
            l.append(i.word)
    return l




# tf-idf获取文本top10关键词
def getKeywords_tfidf(dir,stopkey,topK):
    fdir=os.listdir(dir)
    corpus=[]
    for fname in fdir:
        fp=open(dir+'\\'+fname,encoding='utf_8',mode='r').read()
        text = dataPrepos(fp, stopkey)
        text = " ".join(text)
        corpus.append(text)
    #
    # idList, titleList, abstractList = data['id'], data['title'], data['abstract']
    # corpus = [] # 将所有文档输出到一个list中，一行就是一个文档
    # for index in range(len(idList)):
    #     text = '%s。%s' % (titleList[index], abstractList[index]) # 拼接标题和摘要
    #     text = dataPrepos(text,stopkey) # 文本预处理
    #     text = " ".join(text) # 连接成字符串，空格分隔
    #     corpus.append(text)

    # 1、构建词频矩阵，将文本中的词语转换成词频矩阵
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(corpus) # 词频矩阵,a[i][j]:表示j词在第i个文本中的词频
    # 2、统计每个词的tf-idf权值
    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(X)
    # 3、获取词袋模型中的关键词
    word = vectorizer.get_feature_names()
    # 4、获取tf-idf矩阵，a[i][j]表示j词在i篇文本中的tf-idf权重
    weight = tfidf.toarray()
    # 5、打印词语权重
    ids, keys = [], []
    for i in range(len(weight)):
        print (u"-------这里输出第", i+1 , u"篇文本的词语tf-idf------")
        ids.append(i)
        # titles.append(titleList[i])
        df_word,df_weight = [],[] # 当前文章的所有词汇列表、词汇对应权重列表
        for j in range(len(word)):
            print( word[j],weight[i][j])
            df_word.append(word[j])
            df_weight.append(weight[i][j])
        df_word = pd.DataFrame(df_word,columns=['word'])
        df_weight = pd.DataFrame(df_weight,columns=['weight'])
        word_weight = pd.concat([df_word, df_weight], axis=1) # 拼接词汇列表和权重列表
        word_weight = word_weight.sort_values(by="weight",ascending = False) # 按照权重值降序排列
        keyword = np.array(word_weight['word']) # 选择词汇列并转成数组格式
        word_split = [keyword[x] for x in range(0,topK)] # 抽取前topK个词汇作为关键词
        word_split = " ".join(word_split)
        keys.append(word_split)

    result = pd.DataFrame({"id": ids,  "key": keys},columns=['id','key'])
    return result


def main():
    # 读取数据集
    dir = ''#存放文件的地址
    # data = pd.read_csv(dataFile)
    # 停用词表
    stopkey = [w.strip() for w in codecs.open('stopWord.txt',mode= 'r',encoding='utf_8').readlines()]
    # tf-idf关键词抽取
    result = getKeywords_tfidf(dir,stopkey,10)

    result.to_csv("keys_TFIDF.csv",encoding='utf_8_sig',index=False)

if __name__ == '__main__':
    main()

TextRank实现关键词抽取

import os
import sys
import pandas as pd
import jieba.analyse
"""
       TextRank权重：

            1、将待抽取关键词的文本进行分词、去停用词、筛选词性
            2、以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图
            3、计算图中节点的PageRank，注意是无向带权图
"""

# 处理标题和摘要，提取关键词
def getKeywords_textrank(dir,topK):
    fdir = os.listdir(dir)
    ids,keys=[],[]
    for fname in fdir:
        fp = open(dir + '\\' + fname, encoding='utf_8', mode='r').read()
        jieba.analyse.set_stop_words('stopWord.txt')  # 加载自定义停用词表
        text = fp
        keywords = jieba.analyse.textrank(text, topK=topK)  # TextRank关键词提取，词性筛选
        word_split = " ".join(keywords)
        print(word_split)
        keys.append(word_split)
        ids.append(fname)
    result = pd.DataFrame({"fname": ids,"key": keys}, columns=['fname', 'key'])
    return result

def main():
    dir = ''

    result = getKeywords_textrank(dir,10)
    result.to_csv("keys_TextRank.csv",index=False)

if __name__ == '__main__':
    main()

YingJingh

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
关键词抽取

常用技术：TF-IDF、TextRank整体上，关系词抽取方法，大致可以分为3类，基于统计的方法、基于图的方法、基于主题的方法、基于深度学习的方法，为了提高应用的准确率，一般是多种方法结合使用，比如，使用TF-IDF修正权重。参考文献：自动关键词抽取研究综述本机地址：E:\python project\pythonProject_draftKG\关键词抽取。...
复制链接

扫一扫