- 博客(4)
- 收藏
- 关注
原创 我是top1!!
突发奇想baidu了以下deepinside,我这个blog竟然排第一!!有趣有趣。很久不来写了,不是很爱写技术的东西,图图表表的很麻烦。现在看来Rank这么高,以后要多来灌溉。。
2008-01-22 16:22:00
557
1
原创 Develop Customizable Web Crawler Using WebSphinx
WebSPHINX ( Website-Specific Processors for HTML INformation eXtraction) is a Java class library and interactive development environment for web crawlers. As its home pages title, Websphinx is ai
2006-03-30 23:22:00
1825
转载 开源spider一览(zz)
spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目Spier定义(关于Spider的定义,有广义和狭义两种). 狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序. 广义:所有能利用http
2006-03-07 10:13:00
1587
原创 开工
开始打造我的spider。之前已经做了不少调研了,该动手做了。边做边改进。JSpider的资料太匮乏了,上周一直在看代码。今天下载了WebSPHINX,研究一下。
2006-03-06 17:35:00
616
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人