(1)问题:对有些站点出现java.net.UnknownHostException
解决方案:出现这种错误说明对应的url服务器不存在,可以忽略,程序会继续处理其他链接
(2)问题:fetch of http://nc.nursing.sdu.edu.cn/ failed with: java.net.SocketException: Software caused connection abort: recv failed
解决方案:链接不成功,可以忽略,对程序没有影响。
(3)问题:fetch of http://www.kjc.sdu.edu.cn/ failed with: java.net.SocketTimeoutException: connect timed out
解决方案:可以再nutch配置文件中设置延迟时间,也可以忽略这种问题,因为nutch超时的链接,在浏览器中也是返回不了的。
(4)问题:将正常的程序移植到linux下,出现java.net.UnknownHostException问题
java.net.UnknownHostException: www.online.sdu.edu.cn
at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:195)
at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)
at java.net.Socket.connect(Socket.java:529)
at org.apache.nutch.protocol.http.HttpResponse.<init>(HttpResponse.java:97)
at org.apache.nutch.protocol.http.Http.getResponse(Http.java:64)
at org.apache.nutch.protocol.http.api.HttpBase.getProtocolOutput(HttpBase.java:225)
at org.apache.nutch.fetcher.Fetcher$FetcherThread.run(Fetcher.java:640)
解决方案:是dns配置问题,可以通过配置linux下相关网络连接实现