爬虫(HttpUrlConnection+正则表达式)

最新推荐文章于 2023-07-18 00:48:59 发布

汀途

最新推荐文章于 2023-07-18 00:48:59 发布

阅读量228

点赞数

分类专栏： java学习总结文章标签： java 正则表达式

本文链接：https://blog.csdn.net/m0_47323674/article/details/107943305

版权

java学习总结专栏收录该内容

9 篇文章 0 订阅

订阅专栏

思路：

通过HttpURLConnection对象，获取输入流下载网页
然后使用正则表达式在下载的网页中检索获得需要的代码部分
废话少说，上代码：

package HW0811;
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class PaChong {
    public static void main(String[] args) throws Exception{
//      获得网页地址
        URL url = new URL("https://www.oneplus.com");
//      建立http连接
        HttpURLConnection conn = (HttpURLConnection)url.openConnection();
        conn.connect();
        StringBuilder sb = new StringBuilder();
//      对网页状态进行判断  状态码  200 表示网页正常访问
        if(conn.getResponseCode()==200) {
//            创建输入流
            InputStream ips = conn.getInputStream();
            BufferedReader br = new BufferedReader(new InputStreamReader(ips));
//          读取网页源代码
            String s = br.readLine();
            while (s != null) {
                sb.append(s);
                s = br.readLine();
            }
            String html = sb.toString();
            String div = getDiv(html);
            System.out.println(div);
        }
    }
    //获得div部分
    public static String getDiv(String html){
//        查找div代码部分
        Pattern pattern = Pattern.compile("<div class=\"cookie-warn\">.*</div>");
        Matcher matcher = pattern.matcher(html);
        if(matcher.find()){
            html = matcher.group();
            return html;
        }
        return null;
    }
}

汀途

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫(HttpUrlConnection+正则表达式)

思路：通过HttpURLConnection对象，获取输入流下载网页然后使用正则表达式在下载的网页中检索获得需要的代码部分废话少说，上代码：package HW0811;import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.URL;import java.util.
复制链接

扫一扫