搜索引擎
zhandsomeu
今天的努力换来明天的美好
展开
-
TF-IDF及其算法
转载自:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重转载 2015-02-05 16:37:46 · 541 阅读 · 0 评论 -
网络爬虫技术浅析
在万维网飞速发展的网络背景下,搜索引擎在人们的生活工作中无疑扮演着重要的角色,而网络爬虫则是搜索引擎技术的最基础部分。一、网络爬虫概述在搜索引擎成为主流检索工具的今天,互联网上的网络爬虫各式各样,但爬虫爬取网页的基本步骤大致相同:1) 人工给定一个URL作为入口,从这里开始爬取。万维网的可视图呈蝴蝶型,网络爬虫一般从蝴蝶型左边结构出发。这里有一些门户网站的主页,而门转载 2015-01-24 11:07:34 · 1367 阅读 · 0 评论