Java爬取网页源码时乱码问题

最新推荐文章于 2024-06-30 03:12:52 发布

QC(_)

最新推荐文章于 2024-06-30 03:12:52 发布

阅读量508

点赞数

分类专栏： java

原文链接：https://blog.csdn.net/ccc_12345/article/details/81186674

版权

java 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

代码

String strurl="http://search.dangdang.com/?key=%BB%FA%D0%B5%B1%ED&act=input";
try {
    URL url=new URL(strurl);
    //通过url建立与网页的连接
    URLConnection conn=url.openConnection();
    //通过链接取得网页返回的数据
    InputStream is=conn.getInputStream();
    //一般按行读取网页数据，并进行内容分析
    //因此用BufferedReader和InputStreamReader把字节流转化为字符流的缓冲流
    //进行转换时，需要处理编码格式问题
    BufferedReader br=new BufferedReader(new InputStreamReader(is));

    //按行读取并打印
    String line=null;
    while((line=br.readLine())!=null){
        System.out.println(line);
    }

    br.close();
} catch (Exception e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
}

结果
在这里插入图片描述
解决方法

在创建BufferedReader对象时，设置InputStreamReader对象的编码格式，如下：

BufferedReader br=new BufferedReader(new InputStreamReader(is,"GB2312"));

这里的编码格式要与爬取网页的charset一致，否则依旧会乱码

<meta http-equiv="Content-Type" content="text/html; charset=GB2312">

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

QC(_)

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

java抓取网页数据乱码_java抓取网页保存的乱码问题解决

weixin_30583711的博客

02-13

493

昨天用java抓取html文件，获取下来的html文件打开总是带有乱码，弄了半天搞定了。其实要避免乱码的一个好方法：没有必要去判断页面的编码方式，只要读取的数据按字节(而不是按字符)保存起来就可以了，后缀为html文件，然后用浏览器打开，肯定是正常的。分析的原因：在网络上传送的数据是基于字节流的，我们要在屏幕上显示的时候要将字节流按某种字符集解码成String的形式，在java中就是将字节流按某种...

java读取网页源代码，纠正了乱码的错误。

javastar

06-24

142

package juyan.scoket; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; public class MySocket { @SuppressWarnings("dep...

参与评论您还未登录，请先登录后发表或查看评论

java 自动识别网页乱码爬取

weixin_42134094的博客

06-30

Java自动识别网页乱码爬取在进行网页数据爬取时，经常会遇到网页编码不一致导致的乱码问题。乱码会影响数据的准确性和可读性，因此解决乱码问题是爬虫开发中不可避免的一部分。本文将介绍如何使用Java编程语言自动识别网页乱码并进行数据爬取的方法。乱码问题分析在网页中，不同的网站可能会使用不同的编码方式来展示页面内容，如UT...

java 抓取网页乱码_java抓取网页乱码问题的处理

weixin_30856391的博客

02-19

539

今天同事做了一个我们感觉很牛B的彩票预测程序，采用的是遗传算法实现，于是我“剽”来学习先，但是部署到我电脑上以后，就有问题了：1、用她的抓取程序得到的网页内容出现乱码，导致数据无法解析，苦思不得其解，今天终于在一个牛人的博客上得到正果，哈哈，抓取数据成功。一下是处理java抓取网页乱码的解决方案，我这里测试通过哦。java 抓取网页乱码问题处理String htmlContent = "";jav...

java抓取网页数据乱码_java抓取网页的乱码问题(通用)

weixin_42316909的博客

02-13

177

java抓取网页的乱码问题(通用)2010-12-22 13:34//解决抓取页面的乱码问题import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io....

Java爬取网页数据HTML,CSS,JS

weixin_44253865的博客

11-20

1866

最近接触了下java的爬虫，文本信息爬完了，就想看看图片怎么爬，于是就研究了一下，案例爬学校的官网 pom依赖  <dependency> <groupId>org.jsoup</groupId&gt...

使用java 来爬取网页内容

mo7984130的博客

07-22

9286

使用java 来爬取网页内容前言明确爬取对象实现需求小说名称前言在日常中，我们经常需要浏览网页，阅读一些内容。但网页中并不是所有内容都是我们所需要的。毕竟，谁都不想看的好好时突然出现一个“澳门棋牌”。那么这时我们就可以爬取它的内容。明确爬取对象这里就以大家熟知的笔*阁为例。打开笔*阁的首页。不对，打开一本小说。这里以《进化的四十六亿重奏》为例（我是挺推荐这本书的，还有，如果可以的话尽量支持正版。）打开主页，查看源代码，我们可以从其中换取我们需要的一起。那我们需要什么呢？那我们

java爬虫乱码_网络爬虫的乱码处理

weixin_39900736的博客

02-21

873

关于爬虫乱码有很多群友的各式各样的问题，下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理...

java爬取网易云歌单_爬虫爬取网易云歌单

weixin_35794280的博客

02-25

1345

一、主题式网络爬虫设计方案1.主题式网络爬虫名称：爬取网易云音乐歌单2.主题式网络爬虫爬取的内容与数据特征分析爬取网易云音乐歌单前十页歌单，轻音乐类型的歌单名称、歌单播放量、歌单链接、用户名称。分析歌单播放量和歌单标题关键词3.主题式网络爬虫设计方案概述(包括实现思路与技术难点)实现思路：使用单线程爬取，初始化信息，设置请求头部信息，获取网页资源，使用etree进行网页解析，爬取多页时刷新offs...

java 抓取网页乱码,Java URL抓取页面内容乱码有关问题解决方法

weixin_39541767的博客

03-20

170

Java URL抓取页面内容乱码问题解决办法页面utf-8 乱码gbk正常这个是字符说明http://download.oracle.com/javase/6/docs/api/java/nio/charset/Charset.html如何抓取的时候正常显示呢？一种办法是同一按字节码来抓取，写到文件中，这样要 i/o file ,增加系统负担另一种办法就是要根据页面的编码格式适当转码了下面是我的解...

java网络爬虫，乱码问题终于完美解决

p15097962069的博客

06-08

225

java网络爬虫，乱码问题终于完美解决

java爬虫返回页面乱码问题

taodearyy的专栏

12-13

1626

本人最近接触了爬虫程序，开始写了几个程序爬取国内某网站数据，期间出现了乱码问题，但总是能在设置head消息中的encoding 解决问题，今天在爬取国外网站的时候，出现了一件头疼的问题：该程序爬取回来的全部是英文数据，不管怎么设置，但总是出现乱码，研究了几个小时（本人小白一枚）终于明白了一点问题，并解决之：现贴上代码：本例采用get方式 post 方式类似，请参考抓取网站：

javade html乱码,乱码的产生与解决-JavaWeb开发

weixin_34571972的博客

06-17

2107

从请求与响应入手，这是经过tomcat的两个必经之路；页面：当页面设定了编码集(utf8)请求A. 是post(传递的数据放在请求体中)：B.是get(此时服务端设置utf8编码集不起作用，因为数据是经过请求行，而之前是经过请求体。)服务器(web容器)：默认设置ISO-8859-1字符服务端小程序(servlet)此时工作空间为UT8A.request.setCharacterEncoding(...

爬取网站时返回的html是乱码问题解决

西门一刀的博客

08-01

1427

在爬取网站新闻时发现，返回的html代码中中文是乱码

java爬虫爬取gb2312编码的中文网页时出现个别中文字符乱码问题及解决方案

DriftJiangyun的博客

03-11

1659

使用Java爬虫爬取中国青年网：http://news.youth.cn/sh的社会新闻模块时，出现部分乱码问题，如下图所示：我的爬虫使用的是自己编写的一个简单的网页编码探测器来获取网页编码的，按理说不应该出现乱码问题，下载网页的工具类代码如下：（下载工具类和字符探测工具类的两段代码不重要，不想看代码可以跳到第二部分）一、测试工具类是否出错 /** *Httpclient下载工...

关于java爬取出来的数据乱码问题解决

dnuiking的博客

07-27

460

今天学习用java爬取网页上数据，发怕发现爬出来的都是乱码，结合网上找的一些编码问题解决了问题。InputStreamReader 第二个参数可以指定编码方式，选择UTF-8可以正常显示中文。

利用网络爬虫爬取网页源码的代码