nutch1.0 “Invalid first character”异常

最新推荐文章于 2022-05-12 10:22:58 发布

moxuansheng

最新推荐文章于 2022-05-12 10:22:58 发布

阅读量850

点赞数

分类专栏：搜索引擎文章标签： character regex string windows google list

本文链接：https://blog.csdn.net/moxuansheng/article/details/4675395

版权

搜索引擎专栏收录该内容

14 篇文章 0 订阅

订阅专栏

根据http://lucene.apache.org/nutch/tutorial8.html中的tutorial，下载nutch-1.0，cygwin等进行配置。

在使用bin/nutch crawl urls -dir crawl -depth 3 -topN 50进行抓取的时候，出现了Invalid first character，

google到一些文章，说可能是craw-urlfilter.txt文件中的URL有问题，检查该文件，没有发现问题。

然后查看源代码，http://www.docjar.com/html/api/org/apache/nutch/urlfilter/api/RegexURLFilterBase.java.html，

ivate RegexRule[] readRulesFile(Reader reader) 165 throws IOException, IllegalArgumentException { 166 167 BufferedReader in = new BufferedReader(reader); 168 List rules = new ArrayList(); 169 String line; 170 171 while((line=in.readLine())!=null) { 172 if (line.length() == 0) { 173 continue; 174 } 175 char first=line.charAt(0); 176 boolean sign=false; 177 switch (first) { 178 case '+' : 179 sign=true; 180 break; 181 case '-' : 182 sign=false; 183 break; 184 case ' ' : case '/n' : case '#' : // skip blank & comment lines 185 continue; 186 default : 187 throw new IOException("Invalid first character: "+line); 188 } 189 190 String regex = line.substring(1); 191 if (LOG.isTraceEnabled()) { LOG.trace("Adding rule [" + regex + "]"); } 192 RegexRule rule = createRule(sign, regex); 193 rules.add(rule); 194 } 195 return (RegexRule[]) rules.toArray(new RegexRule[rules.size()]); 196 }

检查了craw-urlfilter.txt文件仍然没有发现问题，但是执行命令就是报错，Invalid first character。

然后我重新建立了一个文件，通过windows UE进行编辑，拷贝原先的内容到新文件，然后执行命令，

正常运行，开始抓取网页。

很是奇怪？？

moxuansheng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nutch1.0 “Invalid first character”异常

根据http://lucene.apache.org/nutch/tutorial8.html中的tutorial，下载nutch-1.0，cygwin等进行配置。在使用bin/nutch crawl urls -dir crawl -depth 3 -topN 50进行抓取的时候，出现了Invalid first character，google到一些文章，说可能是craw-urlfil
复制链接

扫一扫