自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 资源 (4)
  • 收藏
  • 关注

原创 nutch爬虫 解析后获得的url数量有限制

Nutch爬虫将网页爬下来后,分析url的时候确实是会把所有的url给解析出来。但是,如果仔细观察的话,nutch爬虫并不会把所有的解析出来的url传到过滤器里。         查看源码以后发现,nutch爬虫有一个环节里会把很多url给忽略掉。Org.apache.nutch.parse包里的ParseOutputFormat这个类里的getRecordWriter方法里有一个变量叫maxOutlinksPerPage,这个变量就是这一现象的罪魁祸首。原来,nutch爬虫用这个变量规定,解析出来的url

2010-08-04 09:55:00 2177

Nutch 安装ppt

Nutch 导入eclipse, 并且简单与solr整合。基本上是wiki上的内容,只是每个步骤后加了相应的图片。

2012-10-22

sqliteadmin sqlite数据库查看工具

sqliteadmin sqlite数据库查看工具

2011-10-14

裁剪图片 Android

在Android上实现图片的裁剪,使用矩形框选择裁剪出的区域

2011-10-14

Android Listview 分页显示与异步下载图片

Android Listview 分页显示与异步下载图片 按照内存剩余大小随机释放已读图片与重新下载释放的图片

2011-08-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除