python 爬取淘宝网课

python爬取淘宝网课,打开web控制台,发现有个链接可以下载到对应的内容,下载的格式是m3u8,用文本打开里面是许多.ts链接,当然百度后得知可以直接下个vlc然后下载,但是还是想用python试一试。

我得做法是自己从网页上将15节课的获取m3u8的链接复制粘贴到一个文本里;然后用requests.get.text  分别写入15个空文本中;接着从每个文本将链接(可以获取到.ts视频的链接)遍历为列表之后,再用列表中的每个url进行r=requests.get()。但是此时的r.status_code是404,获取不到r.content。但是我要是直接将可以获得.ts视频的链接直接复制粘贴为url,此时这个链接便可以获取到对应的视频,求解答这是怎么回事?


import linecache
import requests
import os
#i need learn about the re module
#观察发现每个文本都是第六个开始为.ts链接,直到倒数第二个,每个两链接之间隔一个注释

for name in range(15):
    filename3='E:/pycharm/python crawler--taobao‘s internet courses/txt/'+str(name)+'.txt'
    ts_url_list = linecache.getlines(filename3)
    os.makedirs('E:/pycharm/python crawler--taobao‘s internet courses/' + str(name) + '/')
    for num in range(5,len(ts_url_list),2):
        print(ts_url_list[num])
        r=requests.get(str(ts_url_list[num]))
        if r.status_code == 200:
            path_name = 'E:/pycharm/python crawler--taobao‘s internet courses/' + str(name) + '/' + str(num) + '.mp4'
            with open(path_name,'wb') as file_object:
                file_object.write(r.content)
                file_object.close()


        else:
            print(r.status_code)
            break


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值