目录
IDF(逆文档频率,Inverse Document Frequency)
jieba中文分词
jieba
是一个强大的中文分词工具,支持自定义词汇和多种分词模式。通过 jieba.add_word()
或 jieba.load_userdict()
可以灵活地处理新词汇。
举例:对"饺子导演的作品哪吒2要冲到全球动画票房榜首啦"这句话进行分词
import jieba
# 输入文本
str = '饺子导演的作品哪吒2要冲到全球动画票房榜首啦'
# 添加自定义词汇
jieba.add_word('全球动画票房')
jieba.add_word('哪吒2')
# 对文本进行分词
a = jieba.lcut(sentence=str)
# 输出分词结果
print(a)
运行结果 :
未导入分词库的效果
import jieba
str='饺子导演的作品哪吒2要冲到全球动画票房榜首啦'
a=jieba.lcut(sentence=str)
print(a)
运行结果:
TF-IDF
TF-IDF 是自然语言处理(NLP)和信息检索中常用的统计方法,用于衡量一个词在文档中的重要性,广泛应用于文本分析和信息检索任务中。以下是它们的详细介绍:
TF(词频,Term Frequency)
-
定义:词频是指一个词在文档中出现的频率。
-
计算公式:
-
作用:衡量一个词