Java使用jsoup库连接url时报错(MalformedURLException)

最新推荐文章于 2024-04-26 23:49:43 发布

bjyhL

最新推荐文章于 2024-04-26 23:49:43 发布

阅读量1.9k

点赞数

分类专栏： Java基础知识文章标签： java 开发语言后端 url html

本文链接：https://blog.csdn.net/bjyh345/article/details/121698725

版权

Java基础知识专栏收录该内容

6 篇文章 2 订阅

订阅专栏

最近写了一个程序，目的是连接给定的url并获取网页上的内容。该程序用到了jsoup库（一个HTML解析器库），但是在运行时出现了错误，有的url可以连接上并成功获取内容，有的url却报错。
代码如下：

public class Test2 {
    public static void main(String[] args) throws IOException {
    	//此url会报错
        String url = ("http://search.cnki.com.cn/Search/Result?content=%u8BA1%u7B97%u673A%u533B%u7597");
        Document doc = Jsoup.connect(url).get();
        //输出网页内容
        System.out.println(doc.text());
    }
}

报错信息：

Exception in thread “main” java.net.MalformedURLException: Malformed escape pair at index 48: http://search.cnki.com.cn/Search/Result?content=%u8BA1%u7B97%u673A%u533B%u7597

我们来看看能正确运行的url和会报错的url有什么不同：

//能正确运行的url
String url = ("https://github.com/search?q=computer+network");
//会报错的url
String url = ("http://search.cnki.com.cn/Search/Result?content=%u8BA1%u7B97%u673A%u533B%u7597");

可以看到第二个url的搜索请求部分（?后面的部分）多了个特殊符号’%’，这就是导致连接错误的原因！
查资料知道：url搜索请求部分的参数必须为URL可编码的形式，它们不能包含任何特殊字符，例如：&会被当作一个新参数的开始；%被用作转义字符，比如%20是一个空格字符。
解决方法：对url参数值进行编码。第二个url的参数值为我们要搜索的内容，这里为"计算机医疗"，而不是"%u8BA1%u7B97%u673A%u533B%u7597"。

//解决方法：对参数值编码
public class Test2 {
    public static void main(String[] args) throws IOException {
        String url = ("http://search.cnki.com.cn/Search/Result?content=");
        //对参数值以UTF-8的方式编码
        String query = URLEncoder.encode("计算机医疗", StandardCharsets.UTF_8);
        Document doc = Jsoup.connect(url + query).get();
        System.out.println(doc.text());
    }
}

成功连接：

之后我又用URLConnection的方法连接同样一个url，发现这种方法不受这个错误的困扰：

public class UrlTest {
    public static void main(String[] args) throws IOException {
        URL url = new URL("http://search.cnki.com.cn/Search/Result?content=%u8BA1%u7B97%u673A%u533B%u7597");
        URLConnection connection = url.openConnection();
        connection.connect();
		//将获取到的内容输出
        BufferedReader br = new BufferedReader(new InputStreamReader(connection.getInputStream()));
        String s;
        while ((s = br.readLine()) != null) {
            System.out.println(s);
        }
    }
}

这个程序可以正确运行，原因是new URL()这个构造方法会自动帮我们解析字符串并转为url。

bjyhL

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Java使用jsoup库连接url时报错(MalformedURLException)

最近写了一个程序，目的是连接给定的url并获取网页上的内容。该程序用到了jsoup库（一个HTML解析器库），但是在运行时出现了错误，有的url可以连接上并成功获取内容，有的url却报错。代码如下：public class Test2 { public static void main(String[] args) throws IOException { //此url会报错 String url = ("http://search.cnki.com.cn/Search
复制链接

扫一扫