- 博客(8)
- 资源 (5)
- 收藏
- 关注
原创 添加中文分词器后,查询的时候获得摘要错误
主要是在plugin/summary-basic插件中的BasicSummarizer类出现了错误: java.lang.StringIndexOutOfBoundsException: String index out of range: -1 at java.lang.String.substring(String.java:1937) at org.apache.nutch.summa
2012-10-24 09:43:53 945
原创 为什么返回ParseReasult中的外部链接数小于解析的外部链接数
通过跟踪发现,Fetcher获得网页解析链接没有问题,获得了网页中所有的链接,然后在output()函数中通过FetcherOutputFormat类输出(包含在ParseResult中)。 但是在更新数据库的CrawlDb的update()函数中,发现并没有获得所有的链接,而是部分链接,而且相当一部分链接被过滤掉了。 问题肯定出在FetcherOutputFormat类中,FetcherOu
2012-10-13 15:28:45 903
原创 nutch的查询结果页面search.jsp如何实现翻页功能
翻页功能其实很简单 就是在当前的查询结果的基础上,向下查询hitsPerPage个结果,但要注意因为search.jsp源码中,将每个站点的查询返回结果数hitsPerSite设置为2,所以翻页是会出现问题,就是返回结果数不正确,可以根据上一篇介绍的方法解决这个问题。 代码改动: 将原来search.jsp中的如下代码: if ((hits.totalIsExact() && end <
2012-10-12 22:15:23 1970
原创 nutch的search.jsp中查询返回hits数小于设定的值
终于发现了: 原来search.jsp页面在查询结果的时候,将hitsPerSite设置为2了,所以每个站点的最多返回结果数不能超过两个,这样使得我在查询结果返回数小于实际的匹配数,所以在获得hit的时候就会出错,show=hits.getHits(start,realEnd-start)的时候就会出现数组越界 int end = (int)Math.min(hits.getLength
2012-10-12 11:11:51 1369
原创 nutch如何修改regex-urlfilter.txt爬取符合条件的链接
例如我在爬取学生在线的时候,发现爬取不到特定的通知,例如《中粮福临门助学基金申请公告》,通过分析发现原来通知的链接被过滤掉了,下面对过滤url的配置文件regex-urlfilter.txt进行分析,以后如果需要修改可以根据自己的情况对该配置文件进行修改: 说明:配置文件中以“#”开头的行为注释,以“-" 开头的表示符合正则表达式就过滤掉,以“+”开头的表示符合正则表达式则保留。正则表达式中"^
2012-10-06 15:58:26 6229
原创 nutch的conf中的配置文件分类和使用
conf中的配置文件分为两类: 一类是像nutch-default.xml这样的属于引导的核心的配置文件,这类配置文件直接configuration配置类使用,他的作用是引导nutch的job按照开发者的规定执行。这类配置文件包括nutch-default.xml,nutch-site.xml,core-default.xml,core-site.xml等。 另一类像regex-urlfilt
2012-10-03 16:55:22 2205
原创 如何向nutch索引中添加自己的Field
向nutch中添加自己的field也是比较简单的,和直接调用lucene向索引中添加field基本相同,首先设定添加的field是否要被存储分词索引,然后将field添加到NutchDocument中,其他的工作就nutch会自动完成: (1)首先要在Indexer的index函数配置执行索引工作前设定添加Field的属性,因为添加的pagetime是用来进行对结果排序使用的,所以它的属性不能被
2012-10-01 19:09:19 1969
原创 nutch搜索返回结果按照时间排序
其实很简单,因为nutch使用的lucene软件包本身就有按照某个Field进行排序的功能,但是这个Field必须是不被分词但是被索引的,即nutch中的LuceneWriter.INDEX.UNTOKENIZED的,而且这个Field的类型必须是可以比较的整形,长整形或者字符型。 选择好要进行排序的Field后,只要通过 query.getParams().setSortField(
2012-10-01 10:49:10 1277
数据结构试验 山东大学
2011-05-19
数据库课程设计-图书馆信息管理系统
2011-05-18
图形学第二个试验-多边形世界
2011-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人