scrapy爬取kw

最新推荐文章于 2023-06-05 09:43:32 发布

m0_46652894

最新推荐文章于 2023-06-05 09:43:32 发布

阅读量219

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46652894/article/details/105529560

版权

scrapy爬取kw

# -*- coding: utf-8 -*-
import scrapy
import json

class KuwoSpider(scrapy.Spider):
    name = 'kuwo'
    allowed_domains = ['kuwo.cn']
    # pn代表页码， rn代表一页有多少，默认30
    start_urls = ['http://www.kuwo.cn/api/www/playlist/playListInfo?pid=1082685104&pn=1&rn=60']

    def start_requests(self):
        # 设置请求头和cookies
        kw = KwHeaders()
        # csrf很重要
        headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36',
         'csrf': '3UIQ2GWU3QH', 
         'Referer': 'http://www.kuwo.cn'
         }
        # 值和csrf一样
        cookie = {'kw_token': '3UIQ2GWU3QH'}
        for url in self.start_urls:
            yield scrapy.Request(url, cookies=cookie, headers=headers, dont_filter=True)

    
    def parse(self, response):
        # 获取每一首歌rid
        music_list = json.loads(response.text)['data']['musicList']
        for music in music_list:
            # 每个rid代表一首歌
            rid = music['rid']
            href = 'http://www.kuwo.cn/url?format=mp3&rid={0}&response=url&type=convert_url3'.format(rid)
            # 歌词地址
            irc_href = 'http://m.kuwo.cn/newh5/singles/songinfoandlrc?musicId={0}'.format(rid)
            music['irc_href'] = irc_href
            yield scrapy.Request(
                href,
                callback=self.parse_music_url,
                meta={'music':music.copy()}
            )
            # yield music
            


    def parse_music_url(self, response):
        '''获取歌的地址'''
        item = response.meta['music']
        url = json.loads(response.text)['url']
        item['music_url'] = url
        # print(item)
        yield item

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

m0_46652894 CSDN认证博客专家 CSDN认证企业博客

码龄5年

18: 原创

15万+: 周排名

217万+: 总排名

2万+: 访问

: 等级

363: 积分

9: 粉丝

13: 获赞

9: 评论

43: 收藏

私信

关注

热门文章

分类专栏

笔记 1篇
Linux 2篇
JavaScript 1篇

最新评论

python下载 m3u8 视频
离歌、: 你好，新手爬取ts视频，网上随便找了一个无加密m3u8格式的视频（看了下里面的ts连接并拼接好url，试了下都是可以直接复制手动下载的），但是我按下面代码遍历文本中的url批量下载，在文件夹中看到的下载结果要么是0KB要么就是1KB，每次只有最后一个URl是下载成功的，后面我就单独拿出url指定去把每条下载下来，ts视频就没问题，后面才发现我这个翻车代码竟然一次只能下载一个视频，大神能教教吗，感谢感谢！ [code=python] def read_txt(txt_path,new_path): with open(txt_path, 'r', encoding='utf-8') as f: num = 0 for url in (f.readlines()): num = num + 1 response = requests.get(url, stream=True) with open(os.path.join(new_path, str(num) + '.ts'), 'wb') as ts: print(str(num) + '.ts') print("文件长度为：", len(response.content)) start = time.process_time() for chunk in tqdm(response.iter_content(chunk_size=10240)): ts.write(chunk) # Response.close end = time.process_time() print("下载时间为：", end-start) [/code]
python进度条下载文件
浪里划船: # 判断目录是否存在 if os.path.isdir(path_) and not os.path.exists(path_): print('创建文件夹', path_) os.mkdir(path_)
python进度条下载文件
kanhai0718: 为了拿到Content-Length请求了两次，会比直接下载更慢吧
python进度条下载文件
漠北尘-Gavin: Exception ignored in: <function _ProactorBasePipeTransport.__del__ at 0x0000026712BD8310> Traceback (most recent call last): File "D:\ProgramData\anaconda3\lib\asyncio\proactor_events.py", line 116, in __del__ self.close() File "D:\ProgramData\anaconda3\lib\asyncio\proactor_events.py", line 108, in close self._loop.call_soon(self._call_connection_lost, None) File "D:\ProgramData\anaconda3\lib\asyncio\base_events.py", line 719, in call_soon self._check_closed() File "D:\ProgramData\anaconda3\lib\asyncio\base_events.py", line 508, in _check_closed raise RuntimeError('Event loop is closed') RuntimeError: Event loop is closed, 后面会变慢，而且在程序最后还会抛出这个错误
python进度条下载文件
漠北尘-Gavin: content_length : 388756569 start downloading：_7oWZq_s_Sk.mkv: 96%|########################################################################################3 | 356M/371M [11:11<26:46, 9.60k/s] 其实到后面速度还是会很慢啊，为啥呢？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。