刚接手heritrix,试了一试,抓取文件很顺利,可是却发现了一个问题。
用heritrix抓取了jsp文件,可是抓取的文件名如下:show_hotelshopid=102&catid=2.jsp
可实际想要的url是show_hotel.jsp?shopid=102&catid=2
如何将文件名与url相关联起来?
要重写writer么?或是其他
由于windows file system不允许"?"出现在文件名中,这个限制造成了这一麻烦,可是怎么解决呢?
用heritrix抓取了jsp文件,可是抓取的文件名如下:show_hotelshopid=102&catid=2.jsp
可实际想要的url是show_hotel.jsp?shopid=102&catid=2
如何将文件名与url相关联起来?
要重写writer么?或是其他
由于windows file system不允许"?"出现在文件名中,这个限制造成了这一麻烦,可是怎么解决呢?