自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (5)
  • 收藏
  • 关注

原创 添加中文分词器后,查询的时候获得摘要错误

主要是在plugin/summary-basic插件中的BasicSummarizer类出现了错误: java.lang.StringIndexOutOfBoundsException: String index out of range: -1 at java.lang.String.substring(String.java:1937) at org.apache.nutch.summa

2012-10-24 09:43:53 937

原创 为什么返回ParseReasult中的外部链接数小于解析的外部链接数

通过跟踪发现,Fetcher获得网页解析链接没有问题,获得了网页中所有的链接,然后在output()函数中通过FetcherOutputFormat类输出(包含在ParseResult中)。 但是在更新数据库的CrawlDb的update()函数中,发现并没有获得所有的链接,而是部分链接,而且相当一部分链接被过滤掉了。 问题肯定出在FetcherOutputFormat类中,FetcherOu

2012-10-13 15:28:45 896

原创 nutch的查询结果页面search.jsp如何实现翻页功能

翻页功能其实很简单 就是在当前的查询结果的基础上,向下查询hitsPerPage个结果,但要注意因为search.jsp源码中,将每个站点的查询返回结果数hitsPerSite设置为2,所以翻页是会出现问题,就是返回结果数不正确,可以根据上一篇介绍的方法解决这个问题。 代码改动: 将原来search.jsp中的如下代码: if ((hits.totalIsExact() && end <

2012-10-12 22:15:23 1934

原创 nutch的search.jsp中查询返回hits数小于设定的值

终于发现了: 原来search.jsp页面在查询结果的时候,将hitsPerSite设置为2了,所以每个站点的最多返回结果数不能超过两个,这样使得我在查询结果返回数小于实际的匹配数,所以在获得hit的时候就会出错,show=hits.getHits(start,realEnd-start)的时候就会出现数组越界 int end = (int)Math.min(hits.getLength

2012-10-12 11:11:51 1357

原创 nutch如何修改regex-urlfilter.txt爬取符合条件的链接

例如我在爬取学生在线的时候,发现爬取不到特定的通知,例如《中粮福临门助学基金申请公告》,通过分析发现原来通知的链接被过滤掉了,下面对过滤url的配置文件regex-urlfilter.txt进行分析,以后如果需要修改可以根据自己的情况对该配置文件进行修改: 说明:配置文件中以“#”开头的行为注释,以“-" 开头的表示符合正则表达式就过滤掉,以“+”开头的表示符合正则表达式则保留。正则表达式中"^

2012-10-06 15:58:26 6207

原创 nutch的conf中的配置文件分类和使用

conf中的配置文件分为两类: 一类是像nutch-default.xml这样的属于引导的核心的配置文件,这类配置文件直接configuration配置类使用,他的作用是引导nutch的job按照开发者的规定执行。这类配置文件包括nutch-default.xml,nutch-site.xml,core-default.xml,core-site.xml等。 另一类像regex-urlfilt

2012-10-03 16:55:22 2191

原创 如何向nutch索引中添加自己的Field

向nutch中添加自己的field也是比较简单的,和直接调用lucene向索引中添加field基本相同,首先设定添加的field是否要被存储分词索引,然后将field添加到NutchDocument中,其他的工作就nutch会自动完成: (1)首先要在Indexer的index函数配置执行索引工作前设定添加Field的属性,因为添加的pagetime是用来进行对结果排序使用的,所以它的属性不能被

2012-10-01 19:09:19 1942

原创 nutch搜索返回结果按照时间排序

其实很简单,因为nutch使用的lucene软件包本身就有按照某个Field进行排序的功能,但是这个Field必须是不被分词但是被索引的,即nutch中的LuceneWriter.INDEX.UNTOKENIZED的,而且这个Field的类型必须是可以比较的整形,长整形或者字符型。     选择好要进行排序的Field后,只要通过 query.getParams().setSortField(

2012-10-01 10:49:10 1261

JMF开源软件包

JMF开源软件包,可以使用编写视频音乐播放器等

2012-09-23

javacc-4.0和javacc-5.0

用于编译.jj文件的软件包,javacc工具,编译NutchAnalysis.jj文件时用到的,很好的一个开源代码

2012-09-17

数据结构试验 山东大学

山东大学 数据结构试验 试验1 子集全排序 试验2 插入排序 冒泡排序 归并排序 基数排序 试验3 链表 插入删除 合并 正向反向输出 试验4 二叉树 插入删除 前序中序后序遍历 试验5 堆 插入删除输出排序 试验6 图 输出最小树

2011-05-19

数据库课程设计-图书馆信息管理系统

(1) 读者信息的制定、输入、修改、查询,包括种类、性别、借书数量、借书期限、备注。 (2) 书籍基本信息制定、输入、修改、查询,包括书籍编号、类别、关键词、备注。 (3) 借书信息制定、输入、修改、查询,包括书籍编号、读者编号、借书日期、借书期限、备注。 (4) 还书信息制定、输入、修改、查询,包括书籍编号、读者编号、还书日期、还书期限、备注。 (5)意外处理(续借、超期赔偿、丢失赔偿、损坏赔偿等) (6)多条件查询各种信息. (7)用户权限(普通读者和图书管理员) (8)异常处理

2011-05-18

图形学第二个试验-多边形世界

写一个可以交互的OpenGL应用程序,支持用户利用鼠标创建和删除2维多边形对象。基本功能包括: 对象创建:支持用户利用鼠标指定各个顶点位置,创建多边形。 对象删除: 支持用户选择一个多边形(与你的多边形保存的数据结构有关)并删除。 对象存储: 设计一种数据结构存储每个多边形的顶点与边,支持文件存盘,。 提示:由于删除操作需要多边形的选择机制,你可以在设计数据结构时,把可以帮助你完成选择的信息一起保存。 扩展功能可以包括(至少选择其一): 1. 支持用户选择多边形的颜色 2. 支持用户移动多边形 3. 支持用户改变多边形单个顶点的位置 4. 支持3D多边形 5. 其他(需要通过指导老师认可)

2011-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除