tfidf处理代码_解霸源代码学习——用TF-IDF方法计算词权,jieba,源码,TFIDF,权重

最新推荐文章于 2022-07-12 10:51:36 发布

今年也要加油呀

最新推荐文章于 2022-07-12 10:51:36 发布

阅读量322

点赞数

文章标签： tfidf处理代码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35794072/article/details/112030769

版权

# encoding=utf-8

from __future__ import absolute_import

import os

import jieba

import jieba.posseg

from operator import itemgetter

_get_module_path = lambda path: os.path.normpath(os.path.join(os.getcwd(),

os.path.dirname(__file__), path))

#调用jieba/init.py中_get_abs_path 函数赋值给变量_get_abs_path

_get_abs_path = jieba._get_abs_path

DEFAULT_IDF = _get_module_path("idf.txt") #默认的逆文档频率文件路径

class KeywordExtractor(object):

#初始化的一个停用词典

STOP_WORDS = set((

"the", "of", "is", "and", "to", "in", "that", "we", "for", "an", "are",

"by", "be", "as", "on", "with", "can", "if", "from", "which", "you", "it",

"this", "then", "at", "have", "all", "not", "one", "has", "or", "that"

))

#设置自定义停用词

def set_stop_words(self, stop_words_path):

abs_path = _get_abs_path(stop_words_path) #获取自定义停用词路径

if not os.path.isfile(abs_path):

raise Exception("jieba: file does not exist: " + abs_path)

#文件存在，则读取文件内容，并添加到已有词典STOP_WORDS中

content = open(abs_path, 'rb').read().decode('utf-8')

for line in content.splitlines():

self.stop_words.add(line)

def extract_tags(self, *args, **kwargs):

raise NotImplemente

最低0.47元/天解锁文章

今年也要加油呀

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
tfidf处理代码_解霸源代码学习——用TF-IDF方法计算词权,jieba,源码,TFIDF,权重

# encoding=utf-8from __future__ import absolute_importimport osimport jiebaimport jieba.possegfrom operator import itemgetter_get_module_path = lambda path: os.path.normpath(os.path.join(os.getcwd(),o...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。