crawler

最新推荐文章于 2024-06-06 16:49:35 发布

Cande丨

最新推荐文章于 2024-06-06 16:49:35 发布

阅读量607

点赞数

分类专栏：爬虫crawler

爬虫crawler 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

转载 https://www.weiney.com/2025.html

import time

from bs4 import BeautifulSoup

from selenium import webdriver

import re

import threading

import requests

import os

from tqdm import tqdm

if not os.path.exists("album"):

os.mkdir("album")

PATH = os.getcwd() + "\\album\\"

URL = "http://yoerking.com/static/music_player.html"

ALL_MUSICS = []

def get_page_sourse():

browser = webdriver.Chrome()

browser.get(URL)

page_sourse = browser.page_source

browser.close()

return page_sourse

def parse_music():

page_sourse = get_page_sourse()

soup = BeautifulSoup(page_sourse, "html.parser")

all_musics = soup.find_all("a", class_="url")

for music_item in all_musics:

single_music = dict()

single_music["url"] = music_item.attrs["hrefsrc"]

single_music["name"] = music_item.text

single_music["album"] = re.search("(?<=music/)(.*?)(?=/)", single_music["url"]).group()

ALL_MUSICS.append(single_music)

def create_dir(albums):

for album in albums:

if not os.path.exists(PATH + album):

os.mkdir(PATH + album)

class DownloadThread(threading.Thread):

def __init__(self, single_music, phar):

threading.Thread.__init__(self)

self.single_music = single_music

self.phar = phar

def run(self) -> None:

req = requests.get(self.single_music["url"])

with open(PATH + self.single_music["album"] + "\\" + self.single_music["name"], "wb") as f:

f.write(req.content)

self.phar.update(1)

if __name__ == '__main__':

parse_music()

ALL_ALBUMS = set([album["album"] for album in ALL_MUSICS])

print("获取到专辑数量:{}, 歌曲数量:{}".format(len(ALL_ALBUMS), len(ALL_MUSICS)))

print("正在创建专辑目录")

create_dir(ALL_ALBUMS)

print("专辑目录创建完成,开始下载歌曲")

with tqdm(total=len(ALL_MUSICS)) as phar:

for single in ALL_MUSICS:

while threading.active_count() > 20:

time.sleep(1)

thread = DownloadThread(single, phar)

thread.start()

input("爬虫执行完成,按任意键退出")

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
crawler

转载https://www.weiney.com/2025.htmlimport timefrom bs4 import BeautifulSoupfrom selenium import webdriverimport reimport threadingimport requestsimport osfrom tqdm import tqdmif no...
复制链接

扫一扫

专栏目录

Cande丨 CSDN认证博客专家 CSDN认证企业博客

码龄10年

31: 原创

111万+: 周排名

204万+: 总排名

2万+: 访问

: 等级

518: 积分

7: 粉丝

9: 获赞

8: 评论

21: 收藏

私信

关注

热门文章

分类专栏

最新评论

关于Restful中的PATCH为什么不是幂等
慢慢来的小邵: 请问怎样实现这个version++的呢？
docker清理大杀器/docker的overlay文件占用磁盘很大？？
Cande丨: yes！you are right。
docker清理大杀器/docker的overlay文件占用磁盘很大？？
doufuplus: 谨慎使用该指令：system prune -a，这是删除当前没启动的镜像。爆满一般都是因为日志问题，治标清除日志就好了，治本使用docker compose配置最大日志量。
crawler
Tisfy: 好文！，正如：誓将挂冠去，觉道资无穷。
docker清理大杀器/docker的overlay文件占用磁盘很大？？
Cande丨: 这个命令应该是只清理所有停止得镜像呀

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。