一个爬虫程序在运行一段时间之后就假死了。在jconsole的线程标签页中,点击“检测到死锁”也报告“未检测到死锁”。
但是仔细查看jconsole中每个线程的状态,观察它们的堆栈追踪,发现我的程序启动的进程都在“java.net.SocketInputStream.socketRead0”处等待。意识到是在这个地方程序阻塞,且没有超时退出。
将这个在网上一搜,发现httpclient确实有人报告这个问题:http://mail-archives.apache.org/mod_mbox/hc-httpclient-users/200912.mbox/%3C4B2CE384.6090508@apache.org%3E
后来在代码中增加了一个超时限制:
之后总是会在System.err中输出“Read timed out”,但至少程序能正确执行下去了。
----------------------------------------------------------------------------------------------------
另外一个bug是关于java.util.Comparator<T>的。
我在compare()函数中最后return (int) (date1.getTime() - date2.getTime());但是从结果来看,显然这个从long到int的强制类型转换引起了排序错误。
最后 return (date1.getTime() - date2.getTime()) > 0 ? 1 : -1; 解决。