文本分词后进行tfidf特征提取

该博客探讨了如何在文本预处理后利用TF-IDF算法来提取关键特征,这种方法广泛应用于信息检索和自然语言处理领域。
摘要由CSDN通过智能技术生成
import os
import jieba

# 保存文件的函数
def savefile(savepath, content):
    fp = open(savepath, 'w', encoding='ANSI',errors='ignore')
    fp.write(content)
    fp.close()

# 读取文件的函数
def readfile(path):
    fp = open(path, "r", encoding='ANSI', errors='ignore')
    content = fp.read()
    fp.close()
    return content

# 创建停用词list
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

# 对句子去除停用词
def movestopwords(sentence):
    stopwords = stopwordslist('E:/stop_words.txt')  # 这里加载停用词的路径
    outstr = []
    for word in sentence:
        if word not in stopwords:
            #if word!=' ':
                outstr.append(word)
    return outstr

if __name__ == '__main__':

    corpus_path = "E:/sogouDataSet_trai
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值