《数学之美》读书笔记_No.11_TF-IDF

本文是《数学之美》读书笔记的第11章,探讨如何确定网页与查询的相关性,主要介绍TF-IDF算法。TF-IDF是一种衡量关键词重要性的方法,通过关键词频率和逆文档频率来计算网页的相关性。停止词被排除在外,以避免对主题判断的影响。该算法在信息检索中广泛使用,用于提高搜索结果的相关性和质量。
摘要由CSDN通过智能技术生成

第11章 如何确定网页和查询的相关性


思考:我们经常使用的搜索引擎如何确定网页和查询的相关性?
过去:利用算法
现在:根据用户对常见搜索点击网页的结果得到的概率模型,除点击量外:
① 完备的索引;
② 对网页质量的度量;
③ 用户偏好;
④ 确定一个网页和某个查询的相关性的方法;

【举例】利用网页查找关于“原子能的应用”这一词组需要哪些步骤?
Step1:在索引中找到包含这三个词的网页;
Step2:将找到的结果进行排序,依据为质量高、相关性高。

1.搜索关键词权重的科学度量TF-IDF

(1)TF-IDF是什么?
继续上面的例子,原子能的应用=原子能+的+应用。
为了避免网页篇幅长度对包含关键词数量的影响,采用“归一化”思想:
关键词的频率 = 关键词次数 / 网页中包含的总字数
关键词的频率又名“单文本词频”(Term Frequency)

【举例】网页中共包含1000个词,“原子能”、“的”、“应用”这三个词分别出现的次数为2次、3次、5次,则TF=0.002+0.035+0.005。
(2)Q&A
Q1:“的”这个词占了总词频的80%以上,而其对确定网页的主题几乎没什么用&#x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值