Heritrix-1.14.4爬取数乱编码问题解决方法

最近在使用HeriTrix爬去数据,发现爬取的结果有的是乱码。自己知道是编码问题。就读源码以解决问题。

解决方法
找到heritrix-1.14.4-src\src\java\org\archive\io\ReplayInputStream.java文件

    public void readFullyTo(OutputStream os) throws IOException {
byte[] buf = new byte[4096];
int c = read(buf);
while (c != -1) {
os.write(buf,0,c);
c = read(buf);
}
}

改为
public void readFullyTo(OutputStream os) throws IOException {
byte[] buf = new byte[4096];
int c = read(buf);
while (c != -1) {
//在这里可以将"UTF-8"替换成自己需要的编码方式
String str_changed_by_cdw = new String(buf,0,c,"UTF-8");
os.write(str_changed_by_cdw.getBytes());
c = read(buf);
}
}

这样更改之后,爬取的数据就不会出现乱码了!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值