天网(TSE)关键词与正文的匹配算法(重点在网页净化)
天网(TSE)关键词与正文的匹配算法(做法) 着重说网页净化部分、对应《搜索引擎-原理、技术与系统》的第七章第一节1.根据重要信息标签(等)算出网页中各内容块的权重。2.根据内容块的权重以及关键词i在各块中出现的频率算出关键词i在笨页面中的权重wi(上面2步在传统的文本处理领域常用TF*IDF方法,而不是上面这种方法。相比之下,天网的算法因为先利用网页的特点给网页内容快加权重,启
原创
2009-02-19 22:15:00 ·
1135 阅读 ·
0 评论