一篇文章教你用 java爬虫 下载全站视频

环境:jdk1.8、win10、科学上网、eclipse

一直想学下写爬虫,满足一下自己的小愿望。正好过年有时间,就研究了一下,网上的资料良莠不齐,于是我决定自己整理一份,按照我的步骤做,一定是可以的,成功了记得回来点赞。

案例里爬了一个小型视频网站,最终的效果可以达到自动下载该网站的全部视频,且每个视频都有他该有的名字。
如果你要用来爬其他网站,代码里很多地方(比如url,url的解析,字符串的截取,下载的位置)是需要根据具体页面进行修改的,我只能提供一个思路而已,当然要爬我爬的这个网站的话当然就不需要改了。

一、思路:

1,获得要爬的网站主页url

2,对于分页的网站(视频网站一般都会分页的啦)分析url分页的方法,找规律

3,在每个分页上找出视频页面的url,找规律

4,在视频页面,分析url,找出视频的实际下载地址,找到规律

5,开始下载

6,开始happy!!!

二、步骤:

1,mian函数,没什么好说的
	public static void main(String[] args) throws Exception {
		final String SCORE_URL = "https://www.xxxx/xxx";// 主页(手工打码)
		final String DOWNLOAD_DIR = "F:/video/";// 下载目录
		
		System.setProperty("https.protocols", "TLSv1,TLSv1.1,TLSv1.2,SSLv3");
		System.err.println("爬取子页面...");
		List<String> allArticle = getAllVideoPage(SCORE_URL);
		System.err.println("爬取视频...");
		Map<String, String> urlMap = getUrlInSource(allArticle);
		System.err.println("本次下载文件数量:" + urlMap.size());
		System.err.println("开始下载...");
		downloadMovie(DOWNLOAD_DIR, urlMap);
	}
2,这里网站的视频一般不会放在首页上,且视频网站一般都会分页的。所以需要先分析分页的url,然后分析进入视频页面的url,然后保存所有视频页url到一个列表里。难点在于对页面的url分析

例如这是分页的url,这个就有明显的规律了。我们只需要修改 page= 后面的数字就可以获得每个分页的url
在这里插入图片描述
然后就要分析进入每个视频页面的url,chrome F12 好我们来看
在这里插入图片描述
标出的这行就是进入视频页面的url,这个相信大家都会找,我就不细说了。
然后我们需要将href=后面的双引号里的东西截取出来,然后拼接成视频页面的完整url,具体看我代码
最后把所有视频页的url存入一个list,下一步

	/**
	 * 爬所有视频页 存入一个list
	 * 
	 * @param source 主页
	 * @return 视频页 列表
	 * @throws Exception
	 */
	private static List<String> getAllVideoPage(String source) throws Exception {
		List<String> urls = new ArrayList<>();
		for (int j = 1; j < 5; j++) { // 要爬哪些页数
			String pageUrl = source;
			// 拼接子页url
			pageUrl = pageUrl + "?sort=new&page=" + j;
			URL url = new URL(pageUrl);
			// 连接url
			BufferedReader br = connectURL(url);
			String info = null;
			for (int i = 0; i < 10000; i++) {
				info = br.readLine();
				if (info != null) {// 这里开始根据实际页面上的url进行字符串截取
					if (info.contains("target=\"_self\"")) {
						int start = info.indexOf("href") + 6;
						int end = start + 6;
						String substring = "https://www.xxx.xxx" + info.substring(start, end);
						urls.add(substring);
					}
				}
			}
		}
		return urls;
	}

3,现在,我们拥有了一个视频页面url的列表,下面只需要找出每一个视频页面中视频的实际下载地址即可。

依旧,分析页面。很幸运,视频页面就有下载按钮。
在这里插入图片描述
我们直接分析页面代码。找到了!!!这个带xxx.mp4的就是下载连接了,我们可以试试看,一点这个链接,浏览器就会开启下载。嗯,没错,就是他。
在这里插入图片描述
只有视频下载地址其实我们已经可以开始下载视频,但是这不完美,没有视频的名字怎么行!开始找名字
在这里插入图片描述
涂掉的部分就是名字啦,具体截取方法见代码

	/**
	 * 获取视频的URL地址和视频名称存入hashMap
	 * 
	 * @param source 视频页 列表
	 * @return 视频名称=下载url
	 * @throws IOException
	 */
	private static Map<String, String> getUrlInSource(List<String> source) throws IOException {

		Map<String, String> hashMap = new HashMap<>();
		for (int j = 0; j < source.size(); j++) {
			String pageUrl = source.get(j);
			URL url = new URL(pageUrl);
			// 连接url
			BufferedReader br = connectURL(url);
			String info = null;
			String title = null;
			// 此处不要==null进行判断,因为网页中有很多行都是null,否则会报java.lang.NullPointerException?
			for (int i = 0; i < 10000; i++) {
				info = br.readLine();
				if (null != info) {// 这里截取视频名称,也是根据页面实际情况
					if (info.contains("h1 class=\"text-truncate\"")) {
						int st = info.indexOf("truncate") + 10;
						int ed = info.lastIndexOf("h1") - 2;
						title = info.substring(st, ed);
					}
					if (info.contains("https://xxx.xxx.xxx/download/mp4")) {// 这里截取视频实际下载url,也是根据页面实际情况
						int start = info.indexOf("http");
						int end = info.lastIndexOf("mp4") + 3;
						String substring = info.substring(start, end);
						hashMap.put(title, substring);
					}
				}
			}
		}
		return hashMap;
	}
4,现在我们有了一个map,里面是视频的名字和下载地址,接下来就简单啦。下载就完事了。
	/**
	 * 开启多线程下载
	 * 
	 * @param DOWNLOAD_DIR
	 * @param urlMap
	 */
	private static void downloadMovie(final String DOWNLOAD_DIR, Map<String, String> urlMap) {
		ExecutorService es = Executors.newFixedThreadPool(8);
		for (Map.Entry<String, String> entry : urlMap.entrySet()) {
			final String title = entry.getKey();// 视频名称
			final String url = entry.getValue();// 视频url

			es.execute(new Runnable() {

				@Override
				public void run() {
					try {
						System.out.println("正在下载:    " + title + ".......");
						File destFile = new File(DOWNLOAD_DIR + title + ".mp4");

						download(url, destFile);
						System.out.println("=========> " + title + " 下载完毕!");

					} catch (IOException e) {
						// TODO Auto-generated catch block
						e.printStackTrace();
					}
				}
			});
		}
	}

	/**
	 * 通过视频的URL下载该视频并存入本地
	 * 
	 * @param url      视频的URL
	 * @param destFile 视频存入的文件夹
	 * @throws IOException
	 */
	private static void download(String url, File destFile) throws IOException {
		URL videoUrl = new URL(url);

		InputStream is = videoUrl.openStream();
		FileOutputStream fos = new FileOutputStream(destFile);

		int len = 0;
		byte[] buffer = new byte[1024];
		while ((-1) != (len = is.read(buffer))) {
			fos.write(buffer, 0, len);
		}
		fos.flush();

		if (null != fos) {
			fos.close();
		}

		if (null != is) {
			is.close();
		}
	}

	/**
	 * 链接url 返回字节流
	 * 
	 * @param url
	 * @return
	 * @throws IOException
	 * @throws ProtocolException
	 * @throws UnsupportedEncodingException
	 */
	private static BufferedReader connectURL(URL url)
			throws IOException, ProtocolException, UnsupportedEncodingException {
		// 这里的代理服务器端口号 需要自己配置
		Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("127.0.0.1", 7959));
		HttpURLConnection conn = (HttpURLConnection) url.openConnection(proxy);
		// 若遇到反爬机制则使用该方法将程序伪装为浏览器进行访问
		conn.setRequestMethod("GET");
		conn.setRequestProperty("user-agent",
				"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36");
		BufferedReader br = new BufferedReader(new InputStreamReader(conn.getInputStream(), "UTF-8"));
		return br;
	}

这里有一些需要说明的,由于很多网站需要科学上网,直接这样连是连不上的,所以我们需要让程序开启代理模式。
看上方代码的最后几行
Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("127.0.0.1", 7959));
这行代码就是设置代理的,当然前提是你得有代理。参数自然是ip和port啦,那怎么看自己代理的ip和port呢。
以著名的x灯为例:
在这里插入图片描述
就是这个了,其他也应该大同小异。

5,最终效果

在这里插入图片描述
欢迎留言讨论。
项目完整代码:(稍后添加)

  • 13
    点赞
  • 87
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
Java爬虫是一种常用的网络数据抓取工具,用于获取网站上的信息并进行处理。学习Java爬虫,最好以视频程为辅助,有系统的讲解和示例代码能更好地帮助理解和掌握相关知识。以下是关于Java爬虫入门到精通视频下载的相关建议。 网上有很多提供Java爬虫程的平台,包括一些知名的在线学习网站、视频育平台以及技术社区等。在这些平台上,你可以找到很多适合不同水平的视频程,从入门到进阶都有涵盖。 首先,你可以在这些平台上搜索关键词"Java爬虫",然后在结果中筛选出类型为视频课程的内容。浏览不同课程的介绍、评价和课时等内容,选择适合自己的程。评价好、内容丰富,并且有系统的学大纲和实例代码是选择的重要参考因素。 其次,由于你需要从入门到精通,所以建议选择一套连贯性强的课程,例如一个系列程,或者一个精心设计的学计划。这样能够确保学习的完整性,避免学习的断层和重复。 在下载视频程前,应确保你的设备有足够的空间来存储这些视频文件,并且有可用的网络或者下载工具。很多学平台提供视频下载的功能,你可以选择购买或者租赁这些课程的视频。另外,你也可以通过一些第三方软件或者在线工具来下载这些程,注意选择安全可靠的资源。 在学习过程中,要多动手实践,在视频中的每个章节或者课时后进行相关练习。通过实际操作来加深理解和熟练相关技术。同时,要多阅读官方文档和相关书籍来弥补视频中没有涉及到的知识点,提升自己的编程水平。 总之,Java爬虫是一个需要系统学习和实践的技术领域。通过下载视频程并按照学计划逐步学习,结合实际练习和深入阅读相关资料,你将能够在Java爬虫领域逐渐达到精通的水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值