无法抓取的视频，暴力破解之路

最新推荐文章于 2025-03-11 14:41:28 发布

迷途无归

最新推荐文章于 2025-03-11 14:41:28 发布

阅读量6.5k

点赞数 3

分类专栏：总结文章标签： python

本文链接：https://blog.csdn.net/qq_27297393/article/details/92412231

版权

总结专栏收录该内容

52 篇文章

订阅专栏

一、经历

1、末年末月末日在一个夜黑风高的夜晚，脑袋一热在网上花了大价钱买了某某的一个培训课程。开始时候该平台还没有对用户进行时间限制，突然某天在网页上显示剩余100天，然后一下子慌了，时间、时间、时间。。。。
2、接下来开始想着怎么把视频抓下来，在网上翻阅了大量的视频爬虫，有简单有难的，我这个是属于难的，一开始的时候基本上上每周网页策略都在变，还好现在稳定了。
3、视频采用的pcf文件加密传输，然后又是一顿找资料，好吧，放弃了~ 无解
4、最后突发奇想，用桌面录像工具，把想要的视频一个一个录制下来（也许以后就躺在硬盘里吃灰了。。。。）。后来发现数量多了，消耗时间多，有没有那个精力盯着电脑。吃力不讨好 ~~~~~~
5、某天突发奇想，用代码录屏。本想自己实现代码，东西多放弃；然后考虑用代码控制桌面录屏工具；ok，完美
6、撸代码呀撸代码 ~~~~~~~~
7、等我录完了再放毒 ~~~~~~~~

end、代码已经释放

二、构成

1、工具

a、selenium + chrome 用于模拟用户
b、scrapy 简单粗暴
d、EV录屏工具

2、要点

a、scrapy模拟浏览器轮序播放
b、代码控制ev录像

三代码

此处主要是对ev录像工具的控制(爬虫代码上传了，会被举报，毕竟签了协议，个人还是干不过集团的^_)，此文档主要是提供一些思路：对于一些实在无法抓取的视频，可以采用屏幕录制的。（温馨提醒：若是视频上带有个人信息的水印，为了避免不必要的纠纷，不建议上传到网上）

前提：运行代码前，先到打开ev录屏工具，调整好录取桌面的大小和声音来源

ev开始录制


                        # 切换Windows窗口，查找EV录屏软件 ;开始录制 （3秒准备延时）
                        Window.find_window_wildcard(".*EV.*")
                        Window.set_foreground()
                        # ctrl + F1  开始
                        win32api.keybd_event(17, 0, 0, 0)  # Control
                        win32api.keybd_event(112, 0, 0, 0)  # F1
                        win32api.keybd_event(112, 0, win32con.KEYEVENTF_KEYUP, 0)  # 释放按键
                        win32api.keybd_event(17, 0, win32con.KEYEVENTF_KEYUP, 0)  # 释放按键

                        # 点击 目录上的视频
                        ActionChains(driver).move_to_element(video).perform()
                        sleep(1)
                        ActionChains(driver).move_to_element(video).click().perform()
                        sleep(2)

                        # 播放视频
                        video_play = driver.find_element_by_class_name('xdyplayer')
                        ActionChains(driver).move_to_element(video_play).click().perform()
                        Window.find_window_wildcard(".*TTS.*")
                        Window.set_foreground()
                        win32api.keybd_event(32, 0, 0, 0)  # space
                        win32api.keybd_event(32, 0, win32con.KEYEVENTF_KEYUP, 0)  # 释放按键

ev完成录制

                                    # ctrl + F2  结束
                                    win32api.keybd_event(17, 0, 0, 0)  # Control
                                    win32api.keybd_event(113, 0, 0, 0)  # F2
                                    win32api.keybd_event(113, 0, win32con.KEYEVENTF_KEYUP, 0)  # 释放按键
                                    win32api.keybd_event(17, 0, win32con.KEYEVENTF_KEYUP, 0)  # 释放按键

完整代码

考虑再三，还是一起发布了，保证项目的完整性。（若是有心并且有账户代码是可以用的，但是爬虫一般都具有时效性，后面就不该了，此代码仅供学习参考）

	allowed_domains  = ['http://www.xxxx.cn/']   # 屏蔽了网站
	driver.get('http://www.xxxx.cn/')  # 打开网页,屏蔽了网站
	            driver.find_element_by_id("js_account_pm").send_keys("xxxxxxxxx@qq.com")  # 屏蔽了个人账户
	            sleep(1)
	            driver.find_element_by_id("js_password").send_keys("xxxxxxxx")	 # 屏蔽了账户密码

代码如下


# -*- coding: utf-8 -*-
import json
import os
from time import sleep

import scrapy
import win32api
import win32con
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

from tarena.control import WindowMgr, key_input

days_enumerate = ["day1", "day2", "day3", "day4", "day5", "day6", "day7", "day8"]

class LoadSpider(scrapy.Spider):
    name = 'load'
    allowed_domains = ['http://www.xxxx.cn/']
    start_urls = ['http://www.baidu.com']

    def parse(self, response):
        if os.path.exists("video_info.text"):
            with open("video_info.text", "r") as f:
                data = f.readlines()

            if len(data) > 0:
                file_info = json.loads(data[0])
            else:
                file_info = {}
        else:
            file_info = {}
        Window = WindowMgr()

        chrome_options = webdriver.ChromeOptions()
        path_dir = r'E:\workspace\crawler\hilqiqi0\chrome\User Data'
        chrome_options.add_argument('--user-data-dir=' + path_dir)  # 设置成用户自己的数据目录
        driver = webdriver.Chrome(chrome_options=chrome_options)
        driver.get('http://www.xxxx.cn/')  # 打开网页

        try:
            target = driver.find_elements_by_xpath('//a[@οnclick="checkTtsUser()"]')[1]
            ActionChains(driver).move_to_element(target).perform()
            sleep(2)
            ActionChains(driver).move_to_element(target).click().perform()

            # 校验跳转
            sleep(5)
            driver.find_element_by_class_name('tree-box-x').find_elements_by_xpath('./div')[2:4]  #[4:5] # [1:5]
        except:
            # 登陆
            driver.find_element_by_id("login_xxw").click()
            sleep(1)
            driver.find_element_by_id("js_account_pm").clear()
            sleep(1)
            driver.find_element_by_id("js_password").clear()
            sleep(1)
            driver.find_element_by_id("js_account_pm").send_keys("xxxxxxxxx@qq.com")
            sleep(1)
            driver.find_element_by_id("js_password").send_keys("xxxxxxxx")
            sleep(1)
            driver.find_element_by_id("js_submit_login").click()

            # 等待登陆成功
            sleep(5)

            target = driver.find_elements_by_xpath('//a[@οnclick="checkTtsUser()"]')[1]
            ActionChains(driver).move_to_element(target).perform()
            sleep(2)
            ActionChains(driver).move_to_element(target).click().perform()

            # 等待加载网页
            sleep(5)

        home_handler = driver.current_window_handle

        # 大类：
        # 第二阶段
        # 第三阶段
        # 第四阶段
        # 完成
        majors = driver.find_element_by_class_name('tree-box-x').find_elements_by_xpath('./div')[2:4]  #[4:5] # [1:5]
        for major in majors:
            major_text = major.find_element_by_xpath('./div').text
            print(major_text)

            # 第一阶段 LINUX, PYTHON01, PYTHON02, PYTHON03, OOP,
            # 第二阶段 MYSQL, PYTHONTHREAD, PYTHONNET, MONGODB, PROJECT01,
            # 第三阶段 WEBBASIC01, WEBBASIC02, PYTHONWEB01, PYTHONWEB02, PYTHONWEB03,
            # 第四阶段 CRAWLER01, CRAWLER02, DATASCIENCE, AI01, AI02, PROJECT02,
            # 完成
            courses = major.find_elements_by_xpath('./ul')
            for course in courses:
                course_text = course.text
                print(course_text)

                course_target = course.find_element_by_class_name('course-name-x')
                ActionChains(driver).move_to_element(course_target).perform()
                sleep(2)
                ActionChains(driver).move_to_element(course_target).click().perform()

                # 视频目录
                days = driver.find_elements_by_class_name('clearfix')
                day_index = 0
                for day in days:
                    try:
                        day_target = day.find_element_by_class_name('day-class')
                    except:
                        continue
                    day_text = day_target.text

                    if day_text == "":
                        continue
                    # 点击进入播放页面
                    print(day_text)

                    day_enumerate = days_enumerate[day_index]
                    day_index += 1

                    day_target = day_target.find_element_by_xpath('./a')
                    ActionChains(driver).move_to_element(day_target).perform()
                    sleep(2)
                    ActionChains(driver).move_to_element(day_target).click().perform()

                    # 网页切换
                    all_handler = driver.window_handles
                    for handler in all_handler:
                        if handler != home_handler:
                            driver.switch_to.window(handler)

                    # 手动加载flash，谷歌需要点击一次
                    while True:
                        try:
                            while driver.find_element_by_xpath('//a[@href="http://www.adobe.com/go/getflash"]').text == "这里":
                                sleep(1)
                        except:
                            sleep(10)
                            break

                    # 视频页
                    videos = driver.find_element_by_class_name('video-list').find_elements_by_xpath('./p/a')
                    video_index = 0
                    for video in videos:
                        video_text = video.text
                        print(video_text)
                        video_index += 1

                        file_name = course_text + "_" + day_enumerate + "_" + str(video_index)
                        file_value = course_text + "_" + day_text + "_" + video_text
                        print(file_value)
                        if file_name in file_info:
                            continue

                        # 切换Windows窗口，查找EV录屏软件 ;开始录制 （3秒准备延时）
                        Window.find_window_wildcard(".*EV.*")
                        Window.set_foreground()
                        # ctrl + F1  开始
                        win32api.keybd_event(17, 0, 0, 0)  # Control
                        win32api.keybd_event(112, 0, 0, 0)  # F1
                        win32api.keybd_event(112, 0, win32con.KEYEVENTF_KEYUP, 0)  # 释放按键
                        win32api.keybd_event(17, 0, win32con.KEYEVENTF_KEYUP, 0)  # 释放按键

                        # 点击 目录上的视频
                        ActionChains(driver).move_to_element(video).perform()
                        sleep(1)
                        ActionChains(driver).move_to_element(video).click().perform()
                        sleep(2)

                        # 播放视频
                        video_play = driver.find_element_by_class_name('xdyplayer')
                        ActionChains(driver).move_to_element(video_play).click().perform()
                        Window.find_window_wildcard(".*TTS.*")
                        Window.set_foreground()
                        win32api.keybd_event(32, 0, 0, 0)  # space
                        win32api.keybd_event(32, 0, win32con.KEYEVENTF_KEYUP, 0)  # 释放按键

                        while True:
                            try:
                                if driver.find_element_by_class_name('tit').text == "重播":
                                    # ctrl + F2  结束
                                    win32api.keybd_event(17, 0, 0, 0)  # Control
                                    win32api.keybd_event(113, 0, 0, 0)  # F2
                                    win32api.keybd_event(113, 0, win32con.KEYEVENTF_KEYUP, 0)  # 释放按键
                                    win32api.keybd_event(17, 0, win32con.KEYEVENTF_KEYUP, 0)  # 释放按键

                                    sleep(1)

                                    print(file_name)
                                    key_input(file_name)

                                    file_info[file_name] = file_value
                                    with open("video_info.text", "w") as f:
                                        f.writelines(json.dumps(file_info))
                                    break

                            except Exception as e:
                                print(e)
                                sleep(2)
                                pass
                        #
                        # break
                    sleep(2)
                    driver.close()
                    # sleep(2)
                    driver.switch_to.window(home_handler)

                    # 向上拖拽
                    driver.execute_script("arguments[0].scrollIntoView();", day_target)
                    # break

                # 去除选择
                ActionChains(driver).move_to_element(course_target).perform()
                sleep(2)
                ActionChains(driver).move_to_element(course_target).click().perform()

                # 向上拖拽
                driver.execute_script("arguments[0].scrollIntoView();", course_target)
                # break
            # break

        driver.quit()  # 关闭Chrome浏览器，如果不写这句话浏览器就会停留在百度首页在后台运行不会关闭浏览器