你今天会学到什么
1. 基于频率的文档表示
2. TF-IDF(Term Frequency-Inverse Document Frequency):词汇频率-逆文档频率
1. 基于频率的文档呈现
早些时候,我们了解了基于频率的幻灯片文档演示。(简单频率与 TF-IDF)
这里,我们直接计算TF-IDF(Term Frequency-Inverse Document Frequency),
此外,我们将通过计算余弦相似度来练习计算文档之间的相似度。
此外,使用名为scikit-learn的Python 机器学习库,
我们再计算一下TF-IDF和余弦相似度。
👉在这里等着!
以后,多个文档之间(文档X文档)或者多个文档与各种搜索词(文档X搜索词)
多次计算余弦相似度,
当多次执行相同的计算时,通过定义函数来执行计算更容易。
因此,让我们了解使这成为可能的Python 函数。
并且它可以轻松处理逗号分隔值(CSV)这种具有代表性的数据格式。
介绍Pandas库。