Java爬虫获取网页视频,音乐,图片等

如何使用Java写爬虫来获取网页视频

  1. 方法1对于没有反爬虫机制(不多说直接上代码)

    @SuppressWarnings(“all”)
    public String getVideo() {
    try {

    		String pageUrl="要爬取的网址";
    		URL url=new URL(pageUrl);
    		InputStream is=url.openStream();
    		BufferedReader br = new BufferedReader(new InputStreamReader(is, "UTF-8"));
    		String info="";
    	for(int i=0;i<3000;i++){ //我设置为网页的一共有3000 行 具体根据 你获取网页行数的大小来决定
    	info=br.readLine();
    	if(null!=info){
    		String urlRegex="src=\"(.*?\\.mp4)";//正则表达式 
    		Pattern pattern = Pattern.compile(urlRegex);
    		Matcher matcher = pattern.matcher(info);
    		if (matcher.find()) {//比对成功
    				for (int j = 0; j <= matcher.groupCount(); j++) {
    							String tmp = matcher.group(j);
    							if (!tmp.startsWith("src=")) {
    								System.out.println("ger mp4 src >"+tmp);
    							}
    						}
    		}
    	}
    

    } catch (Exception e) {
    e.printStackTrace();
    }
    return null;

}

  1. 有反扒机制
    访问 方式改成 以页面的形式访问
    把上面的的访问方式替换成下面的内容就可以,如果反扒机制很强的话,就需要借助代理IP啦
    // InputStream is=url.openStream();
    // BufferedReader br = new BufferedReader(new InputStreamReader(is, “UTF-8”));

    		HttpURLConnection conn = (HttpURLConnection) url.openConnection();
    		conn.setRequestMethod("GET");
    		conn.setRequestProperty("user-agent",
    				"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36");
    		BufferedReader br = new BufferedReader(new InputStreamReader(conn.getInputStream(), "UTF-8"));
    

基本的 就介绍到这里 ,如果又不懂的可以在下面留言咨询我 获取扫描 二维码 来获取更多学习内容

			![获取分布式开发资料等学习内容](微信扫码)

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值