Java爬取网页源码时乱码问题

最新推荐文章于 2024-06-27 15:46:49 发布

ccc_12345

最新推荐文章于 2024-06-27 15:46:49 发布

阅读量2.3k

点赞数 2

分类专栏： java 文章标签： java

本文链接：https://blog.csdn.net/ccc_12345/article/details/81186674

版权

本文介绍了在使用Java进行网页爬取时遇到的源码乱码问题及解决方案。关键在于，在创建BufferedReader时，需要正确设置InputStreamReader的编码格式，确保与网页charset相同，以避免乱码出现。

摘要由CSDN通过智能技术生成

先上代码

String strurl="http://search.dangdang.com/?key=%BB%FA%D0%B5%B1%ED&act=input";
        try {
            URL url=new URL(strurl);
            //通过url建立与网页的连接
            URLConnection conn=url.openConnection();
            //通过链接取得网页返回的数据
            InputStream is=conn.getInputStream();
            //一般按行读取网页数据，并进行内容分析
            //因此用BufferedReader和InputStreamReader把字节流转化为字符流的缓冲流
            //进行转换时，需要处理编码格式问题
            BufferedReader br=new BufferedReader(new InputStreamReader(