蜘蛛
haizhiguang
这个作者很懒,什么都没留下…
展开
-
开源蜘蛛集合
各种蜘蛛: Heritrix 点击次数:1458Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 WebSPHINX 点击次数:777WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览转载 2014-03-01 11:43:33 · 3811 阅读 · 0 评论 -
recall and precision
外行人做互联网,很多概念不懂。就拿最基础的“召回率”和“准确率”这种概念,看看网上资料知道大概,自己用的时候,脑子里绕着弯儿能想明白,可碰到别人活用的时候,脑子里还是没法一下子反应过来,还是要绕弯想一下。特地找了些资料,将这两个概念整理一下,希望能更熟练。召回率和准确率是搜索引擎(或其它检索系统)的设计中很重要的两个概念和指标。召回率:Recall,又称“查全率”; 准确率:Pre转载 2014-08-29 13:16:53 · 681 阅读 · 0 评论