python中文关键词提取

本文深入探讨了Python中进行中文关键词提取的方法,包括使用jieba库的TF-IDF算法和TextRank算法。通过实例展示了如何处理中文文本,提取关键信息,为文本分析和信息检索提供有效支持。
摘要由CSDN通过智能技术生成
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
import numpy as np
import pandas as pd
from datetime import datetime
from datetime import date
from datetime import timedelta
from gensim import corpora,models,similarities
from collections import Counter
import jieba

#判断字符串是否为中文
def is_chinese(string):
    for ch in string:
        if u'\u4e00' <= ch <= u'\u9fff':
            return True
    return False

# 将文本中的中文做分词处理
all_word_list=[]
for key,value in warn_data.iterrows():
    doc_list = [word for word in jieba.cut(value['paths']) if is_chinese(word)]
    all_word_list.append(doc_list)

# 使用dictionary方法获取词袋,词袋中用数字对所有词进行了编号
all_word = corpora.Dictionary(all_word_list)     
print(all_word.token2id)   #词袋内容

# 使用doc2bow制作语料库,语料库是一组向量,向量中的元素是一个二元组(编号、频次),对应分词后的文档中的每一个词
all_doc_corpus = [all_word.doc2bow
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值