自己动手写网络爬虫-----（1）

最新推荐文章于 2023-06-09 17:36:21 发布

Eleganty

最新推荐文章于 2023-06-09 17:36:21 发布

阅读量980

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/qq_15099611/article/details/45602873

版权

java 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

照着书上把代码写完之后运行MyCrawler主程序，发现在存储的路径下面只有一个网页内容，就说明爬虫只爬取了一个网页，仔细检查了书上的代码，发现并没有错误，后来查了API之后才发现，在Parser的构造函数里有一个是可以带参数的，我就说嘛，没有传入URL的参数，它怎么知道解析哪个嘛。

![parser带参数截图]

带了参数之后，但发现还是只有一个网页，我就知道肯定是过滤器出问题了，于是把过滤器改了，不管怎么样都解析，就是把不符合过滤条件的else部分也返回true，这样果然是没问题了，可以爬取很多网页了。初级的爬虫就这样完成了。后来我发现运行时，控制台总是提示警告，大概意思是说无法预料到获取的网页实际大小是多少，不好给出缓存空间，建议使用流式读取内容。。。。

我参照httpClient的APi使用GetResponseBodyAsStream代替了之前的GetResponseBody，可是又出问题了，写入内容时乱码了。网上查了之后找到了问题所在，也找到了解决办法，原因在于用BufferedReader缓存输入流里面的数据时，InputStreamReader读取流的时候使用的是默认的字符集：

InputStreamReader(InputStream in) 创建一个使用默认字符集的 InputStreamReader。

InputStreamReader(InputStream in, Charset cs) 创建使用给定字符集的 InputStreamReader。

InputStreamReader(InputStream in, CharsetDecoder dec) 创建使用给定字符集解码器的 InputStreamReader。

InputStreamReader(InputStream in, String charsetName) 创建使用指定字符集的 InputStreamReader。

因为不知道到底要用什么字符集来读取，只有先用ISO-9958-1来读取，然后用readline函数来转换成字符串，之后再用String的getByte（charset）来转换成字节序列，最后直接把这个写入到本地文件就可以了。![截图]

Eleganty

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自己动手写网络爬虫-----（1）

照着书上把代码写完之后运行MyCrawler主程序，发现在存储的路径下面只有一个网页内容，就说明爬虫只爬取了一个网页，仔细检查了书上的代码，发现并没有错误，后来查了API之后才发现，在Parser的构造函数里有一个是可以带参数的，我就说嘛，没有传入URL的参数，它怎么知道解析哪个嘛。![parser带参数截图]带了参数之后，但发现还是只有一个网页，我就知道肯定是过滤器出问题了，于是把过
复制链接

扫一扫