现在脱胎换骨的Jookster,主要是从主流的web2.0站点,如myspace、Youtube等站点抓取UGC内容,定位到人/ID,而不仅仅像以前的Jookster一样做内容搜索或者bookmark搜索。阅读全文>
发表于 @ 2006年11月21日 15:33:00|评论(loading...)|收藏
现在的问题就是,google怎么做,才能不单单从“广告的精准度”“广告效果的精确计算和真实性”“收入返回比例”上超越奇虎蜘蛛计划,而且还能够有更大的开放性。阅读全文>
发表于 @ 2006年09月25日 15:53:00|评论(loading...)|收藏
假如说你的站点页面中有这么一句:
<META NAME="robots" CONTENT="index,follow">
你利用Nutch抓取并分析时,如何得到这个meta数值并处理呢?阅读全文>
发表于 @ 2006年04月06日 14:41:00|评论(loading...)|收藏
Tom White刚刚发布了他的Nutch系列第二部分:
http://today.java.net/pub/a/today/2006/02/16/introduction-to-nutch-2.html
第一部分是抓取,国内已经有人翻译出来了:
http://today.java.net/pub/a/today/2006/01/10/introduction-to-nutch-1.html阅读全文>
发表于 @ 2006年02月24日 14:55:00|评论(loading...)|收藏