IF-IDF算法介绍
TF(Term Frequency,缩写为TF)也就是词频啦,即一个词在文中出现的次数,统计出来就是词频TF。
词
频
(
T
F
)
=
某
个
词
在
文
章
中
的
出
现
次
数
文
章
的
总
词
数
词频(TF)= \frac{某个词在文章中的出现次数}{文章的总词数}
词频(TF)=文章的总词数某个词在文章中的出现次数
IDF是逆向文件频率(Inverse Document Frequency) 向文件频率 (IDF) :某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。
逆
文
档
频
率
(
I
D
F
)
=
l
o
g
(
语
料
库
的
文
档
总
数
包
含
该
词
的
文
档
数
+
1
)
逆文档频率(IDF)= log(\frac{语料库的文档总数}{包含该词的文档数+1})
逆文档频率(IDF)=log(包含该词的文档数+1语料库的文档总数)
计算TF-IDF
T
F
−
I
D
F
=
词
频
(
T
F
)
x
逆
文
档
频
率
(
I
D
F
)
TF-IDF=词频(TF)x逆文档频率(IDF)
TF−IDF=词频(TF)x逆文档频率(IDF)
TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。
代码
sklearn
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
## 问答库
questions = [
{
"index": 1,
"question": "DNA的基本单位是什么",
"answer": "基因就是生物传递遗传信息的物质。它遍布在人体中的每个细胞(除红细胞外)中。基因是传递生命的遗传密码和决定蛋白质的合成。从生物化学角度讲,基因是链状脱氧核糖核酸(DNA)上编译某蛋白质的一个连续片段。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。"
},
{
"index": 2,
"question": "DNA分子的基本组成是什么",
"answer": "基因就是生物传递遗传信息的物质。它遍布在人体中的每个细胞(除红细胞外)中。基因是传递生命的遗传密码和决定蛋白质的合成。从生物化学角度讲,基因是链状脱氧核糖核酸(DNA)上编译某蛋白质的一个连续片段。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。"
},
{
"index": 3,
"question": "DNA的基本骨架由什么构成",
"answer": "基因就是生物传递遗传信息的物质。它遍布在人体中的每个细胞(除红细胞外)中。基因是传递生命的遗传密码和决定蛋白质的合成。从生物化学角度讲,基因是链状脱氧核糖核酸(DNA)上编译某蛋白质的一个连续片段。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。"
},
{
"index": 4,
"question": "DNA是由哪些结构组成",
"answer": "基因就是生物传递遗传信息的物质。它遍布在人体中的每个细胞(除红细胞外)中。基因是传递生命的遗传密码和决定蛋白质的合成。从生物化学角度讲,基因是链状脱氧核糖核酸(DNA)上编译某蛋白质的一个连续片段。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。"
},
{
"index": 5,
"question": "DNA是由哪几部分组成",
"answer": "基因就是生物传递遗传信息的物质。它遍布在人体中的每个细胞(除红细胞外)中。基因是传递生命的遗传密码和决定蛋白质的合成。从生物化学角度讲,基因是链状脱氧核糖核酸(DNA)上编译某蛋白质的一个连续片段。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。"
}
]
## ------------------------ CountVectorizer ---------------------------------------------
corpus = [item["question"] for item in questions]
vectorizer = CountVectorizer(analyzer ="char",lowercase=False) # ()这里不提供先验词典
# vectorizer.fit(corpus) # 先fit训练传入的文本数据
# X = vectorizer.transform(corpus) # 然后对文本数据进行标记并转换为稀疏计数矩阵
X = vectorizer.fit_transform(corpus) # 可以fit、transform一起使用替代上面的两行
print(vectorizer.get_feature_names()) # 获得模型直接分析数据找到的词汇量(上面单词的集合)
print(X.toarray()) # 直接打印X输出的是每个词的位置, 即稀疏矩阵表示转化为正常矩阵
print(vectorizer.vocabulary_) # 'D': 1表示'D'这个单词的词频显示在词频向量中的第2位
## --------------------------- TfidfTransformer -----------------------------
transform = TfidfTransformer() # 使用TF-IDF(词频、逆文档频率)应用于稀疏矩阵
Y = transform.fit_transform(X) # 使用上面CountVectorizer处理后的 X 数据
print(Y.toarray()) # 输出转换为tf-idf后的 Y 矩阵,同样直接打印 Y 输出每个数据的位置
print(vectorizer.get_feature_names()) # 打印特征名
## -------------------- TfidfVectorizer(CountVectorizer与TfidfTransformer的结合) -------------------
from sklearn.feature_extraction.text import TfidfVectorizer
VT = TfidfVectorizer(analyzer='char', lowercase=False) # 先后调用CountVectorizer和TfidfTransformer两种方法(简化了代码,但运算思想还是不变)
result = VT.fit_transform(corpus)
print(result.toarray())
print(VT.get_feature_names())
代码封装
## 封装
class TfidfModel:
def __init__(self, stop_words=None, tokenizer=None, analyzer='word'):
self.vectorizer = TfidfVectorizer(stop_words=stop_words,
tokenizer=tokenizer,
analyzer=analyzer)
def save(self, feature_path):
with open(feature_path, 'wb') as fw:
pickle.dump(self.vectorizer, fw)
def load(self, feature_path):
self.vectorizer = pickle.load(open(feature_path, 'rb'))
def train(self,data):
return self.vectorizer.fit_transform(data)
def predict(self, data):
return self.vectorizer.transform(data)