python爬取淘宝网课,打开web控制台,发现有个链接可以下载到对应的内容,下载的格式是m3u8,用文本打开里面是许多.ts链接,当然百度后得知可以直接下个vlc然后下载,但是还是想用python试一试。
我得做法是自己从网页上将15节课的获取m3u8的链接复制粘贴到一个文本里;然后用requests.get.text 分别写入15个空文本中;接着从每个文本将链接(可以获取到.ts视频的链接)遍历为列表之后,再用列表中的每个url进行r=requests.get()。但是此时的r.status_code是404,获取不到r.content。但是我要是直接将可以获得.ts视频的链接直接复制粘贴为url,此时这个链接便可以获取到对应的视频,求解答这是怎么回事?
import linecache import requests import os #i need learn about the re module #观察发现每个文本都是第六个开始为.ts链接,直到倒数第二个,每个两链接之间隔一个注释 for name in range(15): filename3='E:/pycharm/python crawler--taobao‘s internet courses/txt/'+str(name)+'.txt' ts_url_list = linecache.getlines(filename3) os.makedirs('E:/pycharm/python crawler--taobao‘s internet courses/' + str(name) + '/') for num in range(5,len(ts_url_list),2): print(ts_url_list[num]) r=requests.get(str(ts_url_list[num])) if r.status_code == 200: path_name = 'E:/pycharm/python crawler--taobao‘s internet courses/' + str(name) + '/' + str(num) + '.mp4' with open(path_name,'wb') as file_object: file_object.write(r.content) file_object.close() else: print(r.status_code) break