第11章 如何确定网页和查询的相关性
思考:我们经常使用的搜索引擎如何确定网页和查询的相关性?
过去:利用算法
现在:根据用户对常见搜索点击网页的结果得到的概率模型,除点击量外:
① 完备的索引;
② 对网页质量的度量;
③ 用户偏好;
④ 确定一个网页和某个查询的相关性的方法;
【举例】利用网页查找关于“原子能的应用”这一词组需要哪些步骤?
Step1:在索引中找到包含这三个词的网页;
Step2:将找到的结果进行排序,依据为质量高、相关性高。
1.搜索关键词权重的科学度量TF-IDF
(1)TF-IDF是什么?
继续上面的例子,原子能的应用=原子能+的+应用。
为了避免网页篇幅长度对包含关键词数量的影响,采用“归一化”思想:
关键词的频率 = 关键词次数 / 网页中包含的总字数
关键词的频率又名“单文本词频”(Term Frequency)。
【举例】网页中共包含1000个词,“原子能”、“的”、“应用”这三个词分别出现的次数为2次、3次、5次,则TF=0.002+0.035+0.005。
(2)Q&A
Q1:“的”这个词占了总词频的80%以上,而其对确定网页的主题几乎没什么用&#x