python中文关键词提取

最新推荐文章于 2024-01-22 12:30:03 发布

leewe7

最新推荐文章于 2024-01-22 12:30:03 发布

阅读量537

点赞数 1

分类专栏： python 数据分析

本文链接：https://blog.csdn.net/leewe7/article/details/108831283

版权

本文深入探讨了Python中进行中文关键词提取的方法，包括使用jieba库的TF-IDF算法和TextRank算法。通过实例展示了如何处理中文文本，提取关键信息，为文本分析和信息检索提供有效支持。

摘要由CSDN通过智能技术生成

from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
import numpy as np
import pandas as pd
from datetime import datetime
from datetime import date
from datetime import timedelta
from gensim import corpora,models,similarities
from collections import Counter
import jieba

#判断字符串是否为中文
def is_chinese(string):
    for ch in string:
        if u'\u4e00' <= ch <= u'\u9fff':
            return True
    return False

# 将文本中的中文做分词处理
all_word_list=[]
for key,value in warn_data.iterrows():
    doc_list = [word for word in jieba.cut(value['paths']) if is_chinese(word)]
    all_word_list.append(doc_list)

# 使用dictionary方法获取词袋，词袋中用数字对所有词进行了编号
all_word = corpora.Dictionary(all_word_list)     
print(all_word.token2id)   #词袋内容

# 使用doc2bow制作语料库，语料库是一组向量，向量中的元素是一个二元组（编号、频次），对应分词后的文档中的每一个词
all_doc_corpus = [all_word.doc2bow