Java 爬虫,利用HttpClient爬取网页内容

直接给出代码。
该代码可以直接获取网页全部内容,且能够很好解决中文的乱码问题。

	//获取url 返回字符串 解决中文乱码问题
    public static String Gget(String url1) {
        CloseableHttpClient httpclient = HttpClients.createDefault();
        String context = "";
        try {
            URL url = new URL(url1);
            URI uri = new URI(url.getProtocol(), url.getHost() + ":" + url.getPort(), url.getPath(), url.getQuery(), null);
            // 创建httpget.
            HttpGet httpget = new HttpGet(uri);
            // System.out.println("executing request " + httpget.getURI());
            // 执行get请求.
            CloseableHttpResponse response = httpclient.execute(httpget);
            // 获取响应实体
            HttpEntity entity = response.getEntity();
            // System.out.println("--------------------------------------");
            // 打印响应状态
            System.out.println(response.getStatusLine());
            if (entity != null) {
                // 打印响应内容 ,转换为utf-8格式,避免所传内容包含汉字乱码
                context = EntityUtils.toString(entity, "UTF-8");
                // System.out.println(context);
            }
            response.close();
            return context;
        } catch (Exception e) {
            e.printStackTrace();
            return "Exception";
        } finally {
            // 关闭连接,释放资源
            try {
                httpclient.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

在这里插入图片描述
在主函数中运行。将爬取的所有数据放入String类型变量中打印。
在这里插入图片描述
在这里插入图片描述
可以看到已经获取网页所有的元素。
对于后续的数据处理,可以使用正则表达式来对String中的内容进行提取。

后续的正则匹配,可以使用如下代码。
接口中的rex为传入的正则表达式,w为所需匹配的文本。返回值为Vector。匹配失败意味着返回的Vector的length为0。

	// 正则匹配
    public static Vector<String> GetMatch(String w, String rex) {
        Pattern p = Pattern.compile(rex);
        Matcher m = p.matcher(w);
        Vector<String> ans = new Vector<String>();
        while (m.find()) ans.add(m.group(0));
        return ans;
    }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值