python 爬取淘宝网课

最新推荐文章于 2021-05-07 13:53:48 发布

忧郁奔向冷的天

最新推荐文章于 2021-05-07 13:53:48 发布

阅读量1.1k

点赞数 1

分类专栏： python 文章标签： python clawer basic

本文链接：https://blog.csdn.net/qq_37083038/article/details/79222718

版权

python 专栏收录该内容

32 篇文章 0 订阅

订阅专栏

python爬取淘宝网课，打开web控制台，发现有个链接可以下载到对应的内容，下载的格式是m3u8，用文本打开里面是许多.ts链接，当然百度后得知可以直接下个vlc然后下载，但是还是想用python试一试。

我得做法是自己从网页上将15节课的获取m3u8的链接复制粘贴到一个文本里；然后用requests.get.text 分别写入15个空文本中；接着从每个文本将链接（可以获取到.ts视频的链接）遍历为列表之后，再用列表中的每个url进行r=requests.get()。但是此时的r.status_code是404，获取不到r.content。但是我要是直接将可以获得.ts视频的链接直接复制粘贴为url，此时这个链接便可以获取到对应的视频，求解答这是怎么回事？

import linecache
import requests
import os
#i need learn about the re module
#观察发现每个文本都是第六个开始为.ts链接，直到倒数第二个，每个两链接之间隔一个注释

for name in range(15):
    filename3='E:/pycharm/python crawler--taobao‘s internet courses/txt/'+str(name)+'.txt'
    ts_url_list = linecache.getlines(filename3)
    os.makedirs('E:/pycharm/python crawler--taobao‘s internet courses/' + str(name) + '/')
    for num in range(5,len(ts_url_list),2):
        print(ts_url_list[num])
        r=requests.get(str(ts_url_list[num]))
        if r.status_code == 200:
            path_name = 'E:/pycharm/python crawler--taobao‘s internet courses/' + str(name) + '/' + str(num) + '.mp4'
            with open(path_name,'wb') as file_object:
                file_object.write(r.content)
                file_object.close()


        else:
            print(r.status_code)
            break