自己动手写网络爬虫-----(1)

照着书上把代码写完之后运行MyCrawler主程序,发现在存储的路径下面只有一个网页内容,就说明爬虫只爬取了一个网页,仔细检查了书上的代码,发现并没有错误,后来查了API之后才发现,在Parser的构造函数里有一个是可以带参数的,我就说嘛,没有传入URL的参数,它怎么知道解析哪个嘛。

![parser带参数截图]

带了参数之后,但发现还是只有一个网页,我就知道肯定是过滤器出问题了,于是把过滤器改了,不管怎么样都解析,就是把不符合过滤条件的else部分也返回true,这样果然是没问题了,可以爬取很多网页了。初级的爬虫就这样完成了。 后来我发现运行时,控制台总是提示警告,大概意思是说无法预料到获取的网页实际大小是多少,不好给出缓存空间,建议使用流式读取内容。。。。

我参照httpClient的APi使用GetResponseBodyAsStream代替了之前的GetResponseBody,可是又出问题了,写入内容时乱码了。 网上查了之后找到了问题所在,也找到了解决办法,原因在于用BufferedReader缓存输入流里面的数据时,InputStreamReader读取流的时候使用的是默认的字符集:

InputStreamReader(InputStream in) 创建一个使用默认字符集的 InputStreamReader。

InputStreamReader(InputStream in, Charset cs) 创建使用给定字符集的 InputStreamReader。

InputStreamReader(InputStream in, CharsetDecoder dec) 创建使用给定字符集解码器的 InputStreamReader。

InputStreamReader(InputStream in, String charsetName) 创建使用指定字符集的 InputStreamReader。  

因为不知道到底要用什么字符集来读取,只有先用ISO-9958-1来读取,然后用readline函数来转换成字符串,之后再用String的getByte(charset)来转换成字节序列,最后直接把这个写入到本地文件就可以了。![截图]


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值