关于java爬取出来的数据乱码问题解决

Dnui_King

于 2023-07-27 13:34:07 发布

阅读量434

点赞数

文章标签： java 开发语言

本文链接：https://blog.csdn.net/dnuiking/article/details/131958146

版权

今天学习用java爬取网页上数据，发怕发现爬出来的都是乱码，结合网上找的一些编码问题解决了问题。

最开始写法：

public static void main(String[] args) throws IOException {
        String web = "https://blog.csdn.net/dnuiking?type=blog";
        String getdata = getdata(web);
        System.out.println(getdata);
    }

    public static String getdata(String web) throws IOException {
        StringBuilder sb = new StringBuilder();
        URL url = new URL(web);
        URLConnection conn = url.openConnection();

        InputStreamReader isr = new InputStreamReader(conn.getInputStream());
        int ch;
        while ((ch = isr.read()) != -1) {
            sb.append((char) ch);
        }
        isr.close();
        return sb.toString();
    }

乱码现象：

修改后：

 public static void main(String[] args) throws IOException {
        String web = "https://blog.csdn.net/dnuiking?type=blog";
        String getdata = getdata(web);
        System.out.println(getdata);
    }

    public static String getdata(String web) throws IOException {
        StringBuilder sb = new StringBuilder();
        URL url = new URL(web);
        URLConnection conn = url.openConnection();

        InputStreamReader isr = new InputStreamReader(conn.getInputStream(),"UTF-8");
        int ch;
        while ((ch = isr.read()) != -1) {
            sb.append((char) ch);
        }
        isr.close();
        return sb.toString();
    }

解决问题

InputStreamReader 第二个参数可以指定编码方式，选择UTF-8可以正常显示中文。

Dnui_King

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
关于java爬取出来的数据乱码问题解决

今天学习用java爬取网页上数据，发怕发现爬出来的都是乱码，结合网上找的一些编码问题解决了问题。InputStreamReader 第二个参数可以指定编码方式，选择UTF-8可以正常显示中文。
复制链接

扫一扫