爬虫(HttpUrlConnection+正则表达式)

思路:

通过HttpURLConnection对象,获取输入流下载网页
然后使用正则表达式在下载的网页中检索获得需要的代码部分

废话少说,上代码:

package HW0811;
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class PaChong {
    public static void main(String[] args) throws Exception{
//      获得网页地址
        URL url = new URL("https://www.oneplus.com");
//      建立http连接
        HttpURLConnection conn = (HttpURLConnection)url.openConnection();
        conn.connect();
        StringBuilder sb = new StringBuilder();
//      对网页状态进行判断  状态码  200 表示网页正常访问
        if(conn.getResponseCode()==200) {
//            创建输入流
            InputStream ips = conn.getInputStream();
            BufferedReader br = new BufferedReader(new InputStreamReader(ips));
//          读取网页源代码
            String s = br.readLine();
            while (s != null) {
                sb.append(s);
                s = br.readLine();
            }
            String html = sb.toString();
            String div = getDiv(html);
            System.out.println(div);
        }
    }
    //获得div部分
    public static String getDiv(String html){
//        查找div代码部分
        Pattern pattern = Pattern.compile("<div class=\"cookie-warn\">.*</div>");
        Matcher matcher = pattern.matcher(html);
        if(matcher.find()){
            html = matcher.group();
            return html;
        }
        return null;
    }
}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值