自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 我是top1!!

突发奇想baidu了以下deepinside,我这个blog竟然排第一!!有趣有趣。很久不来写了,不是很爱写技术的东西,图图表表的很麻烦。现在看来Rank这么高,以后要多来灌溉。。

2008-01-22 16:22:00 557 1

原创 Develop Customizable Web Crawler Using WebSphinx

WebSPHINX ( Website-Specific Processors for HTML INformation eXtraction) is a Java class library and interactive development environment for web crawlers. As its home pages title, Websphinx is ai

2006-03-30 23:22:00 1825

转载 开源spider一览(zz)

spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目Spier定义(关于Spider的定义,有广义和狭义两种). 狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序. 广义:所有能利用http

2006-03-07 10:13:00 1587

原创 开工

      开始打造我的spider。之前已经做了不少调研了,该动手做了。边做边改进。JSpider的资料太匮乏了,上周一直在看代码。今天下载了WebSPHINX,研究一下。

2006-03-06 17:35:00 616

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除