IF-IDF算法介绍

最新推荐文章于 2024-05-20 09:24:31 发布

发呆的比目鱼

最新推荐文章于 2024-05-20 09:24:31 发布

阅读量3.4k

点赞数 3

分类专栏：机器学习文章标签：自然语言处理机器学习

本文链接：https://blog.csdn.net/weixin_42486623/article/details/121474162

版权

机器学习专栏收录该内容

11 篇文章 4 订阅

订阅专栏

IF-IDF算法介绍

TF（Term Frequency，缩写为TF）也就是词频啦，即一个词在文中出现的次数，统计出来就是词频TF。
$\frac{某个词在文章中的出现次数}{文章的总词数}$

IDF是逆向文件频率(Inverse Document Frequency) 向文件频率 (IDF) ：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。
$log(\frac{语料库的文档总数}{包含该词的文档数+1})$

计算TF-IDF
$T F - I D F = 词频 (T F) x 逆文档频率 (I D F)$
TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。

代码

sklearn

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

## 问答库
questions = [
    {
        "index": 1,
        "question": "DNA的基本单位是什么",
        "answer": "基因就是生物传递遗传信息的物质。它遍布在人体中的每个细胞（除红细胞外）中。基因是传递生命的遗传密码和决定蛋白质的合成。从生物化学角度讲，基因是链状脱氧核糖核酸(DNA)上编译某蛋白质的一个连续片段。基因不仅可以通过复制把遗传信息传递给下一代，还可以使遗传信息得到表达。"
    },
    {
        "index": 2,
        "question": "DNA分子的基本组成是什么",
        "answer": "基因就是生物传递遗传信息的物质。它遍布在人体中的每个细胞（除红细胞外）中。基因是传递生命的遗传密码和决定蛋白质的合成。从生物化学角度讲，基因是链状脱氧核糖核酸(DNA)上编译某蛋白质的一个连续片段。基因不仅可以通过复制把遗传信息传递给下一代，还可以使遗传信息得到表达。"
    },
    {
        "index": 3,
        "question": "DNA的基本骨架由什么构成",
        "answer": "基因就是生物传递遗传信息的物质。它遍布在人体中的每个细胞（除红细胞外）中。基因是传递生命的遗传密码和决定蛋白质的合成。从生物化学角度讲，基因是链状脱氧核糖核酸(DNA)上编译某蛋白质的一个连续片段。基因不仅可以通过复制把遗传信息传递给下一代，还可以使遗传信息得到表达。"
    },
    {
        "index": 4,
        "question": "DNA是由哪些结构组成",
        "answer": "基因就是生物传递遗传信息的物质。它遍布在人体中的每个细胞（除红细胞外）中。基因是传递生命的遗传密码和决定蛋白质的合成。从生物化学角度讲，基因是链状脱氧核糖核酸(DNA)上编译某蛋白质的一个连续片段。基因不仅可以通过复制把遗传信息传递给下一代，还可以使遗传信息得到表达。"
    },
    {
        "index": 5,
        "question": "DNA是由哪几部分组成",
        "answer": "基因就是生物传递遗传信息的物质。它遍布在人体中的每个细胞（除红细胞外）中。基因是传递生命的遗传密码和决定蛋白质的合成。从生物化学角度讲，基因是链状脱氧核糖核酸(DNA)上编译某蛋白质的一个连续片段。基因不仅可以通过复制把遗传信息传递给下一代，还可以使遗传信息得到表达。"
    }
]

## ------------------------ CountVectorizer ---------------------------------------------
corpus = [item["question"] for item in questions]

vectorizer = CountVectorizer(analyzer ="char",lowercase=False)  # ()这里不提供先验词典
# vectorizer.fit(corpus)			# 先fit训练传入的文本数据
# X = vectorizer.transform(corpus)		# 然后对文本数据进行标记并转换为稀疏计数矩阵
X = vectorizer.fit_transform(corpus)  # 可以fit、transform一起使用替代上面的两行

print(vectorizer.get_feature_names())  # 获得模型直接分析数据找到的词汇量（上面单词的集合）
print(X.toarray())  # 直接打印X输出的是每个词的位置， 即稀疏矩阵表示转化为正常矩阵
print(vectorizer.vocabulary_) # 'D': 1表示'D'这个单词的词频显示在词频向量中的第2位

## --------------------------- TfidfTransformer -----------------------------
transform = TfidfTransformer()    # 使用TF-IDF（词频、逆文档频率）应用于稀疏矩阵
Y = transform.fit_transform(X)    # 使用上面CountVectorizer处理后的 X 数据
print(Y.toarray())                # 输出转换为tf-idf后的 Y 矩阵，同样直接打印 Y 输出每个数据的位置
print(vectorizer.get_feature_names())    # 打印特征名

## -------------------- TfidfVectorizer（CountVectorizer与TfidfTransformer的结合） -------------------
from sklearn.feature_extraction.text import TfidfVectorizer

VT = TfidfVectorizer(analyzer='char', lowercase=False)  # 先后调用CountVectorizer和TfidfTransformer两种方法（简化了代码，但运算思想还是不变）
result = VT.fit_transform(corpus)
print(result.toarray())
print(VT.get_feature_names())

代码封装

## 封装
class TfidfModel:
    def __init__(self, stop_words=None, tokenizer=None, analyzer='word'):
        self.vectorizer = TfidfVectorizer(stop_words=stop_words, 
                                          tokenizer=tokenizer, 
                                          analyzer=analyzer)

    def save(self, feature_path):
        with open(feature_path, 'wb') as fw:
            pickle.dump(self.vectorizer, fw)


    def load(self, feature_path):
        self.vectorizer = pickle.load(open(feature_path, 'rb'))

    def train(self,data):
        return self.vectorizer.fit_transform(data)

    def predict(self, data):
        return self.vectorizer.transform(data)

发呆的比目鱼

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
IF-IDF算法介绍

IF-IDF算法介绍TF（Term Frequency，缩写为TF）也就是词频啦，即一个词在文中出现的次数，统计出来就是词频TF。词频(TF)=某个词在文章中的出现次数文章的总词数词频(TF)= \frac{某个词在文章中的出现次数}{文章的总词数}词频(TF)=文章的总词数某个词在文章中的出现次数IDF是逆向文件频率(Inverse Document Frequency) 向文件频率 (IDF) ：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。逆文档频
复制链接

扫一扫