java爬取网站信息（js,css，html）

最新推荐文章于 2024-07-20 03:02:11 发布

一年后的西瓜-

最新推荐文章于 2024-07-20 03:02:11 发布

阅读量702

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/Liutt55/article/details/102538785

版权

java 专栏收录该内容

28 篇文章 0 订阅

订阅专栏

新建一个普通的maven项目加入maven依赖即可

org.apache.httpcomponents httpclient 4.5.8

public class JavaProject {
public static void main(String[] args) {
//1.生成httpclient，相当于该打开一个浏览器
CloseableHttpClient httpClient = HttpClients.createDefault();
CloseableHttpResponse response = null;
//2.创建get请求，相当于在浏览器地址栏输入网址https://cn.made-in-china.com/showroom/gonyedmm
HttpGet request = new HttpGet(“https://cn.made-in-china.com/script/pop/jquery.micpop.js”);
try {
//3.执行get请求，相当于在输入地址栏后敲回车键
response = httpClient.execute(request);

        //4.判断响应状态为200，进行处理
        if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
            //5.获取响应内容
            HttpEntity httpEntity = response.getEntity();
            String html = EntityUtils.toString(httpEntity, "utf-8");
            System.out.println(html);
        } else {
            //如果返回状态不是200，比如404（页面不存在）等，根据情况做处理，这里略
            System.out.println("返回状态不是200");
            System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));
        }
    } catch (ClientProtocolException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
        //6.关闭
        HttpClientUtils.closeQuietly(response);
        HttpClientUtils.closeQuietly(httpClient);
    }
}

}