- 博客(3)
- 资源 (4)
- 收藏
- 关注
原创 robots协议标准
前两天刚知道用爬虫抓取page有个协议的问题,尤其是对于opensource的爬虫,刚看到一篇blog,写的就是如此,难怪之前看google的robots也和另外一个U.S.的网站相同,感情是大家都商量好了,可能这方面中国的一些站点这种意识要稍微淡一点。。。同时这也害得毕设还得另谋思路。。。 搜索引擎三巨头打的不亦乐乎,但偶尔也合作一下。去年Google,雅虎,微软就合作,
2008-07-29 14:51:00 1367
原创 Oracle 10g Express Edition安装删除心得。。。
由于要使用ODM,最好还是装个oracle,但可能由于本科时使用过oracle9i的缘故,搞的现在还是好担心它的运行情况,所以下了个Oracle 10g的ExpressEdition,只有200多MB,比标准版小得多,但目前还不知道它对ODM工具的支持情况。。。 第一次装Oracle 10g ExpressEdition的时候,由于可能是有tomcat和Heritrix
2008-07-29 14:41:00 5752 1
原创 提问:Heritrix应用问题
Heritrix应用问题请教一下大家如何用heritrix抓取以下网站内容,需要定制么?下面是USPTO的专利网页:http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+m
2008-07-10 08:39:00 1135
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人