网易教程python_Python抓取网易云专辑图详细教程

原标题:Python抓取网易云专辑图详细教程

运行环境

19d94bca16e84ce58a7975e276b2e344.jpeg

网易云音乐的网页跟普通的网页相比主要有两点不同:

网页是 js 动态加载的

使用了iframe框架

2117ae9a22c5439ab0d86b7fa8c0e366.jpeg

点击一下专辑页面翻页按钮看看url ,你会发现

http://music.163.com/#/artist/album?id=101988&limit=120&offset=0

limit 参数是限制一个页面加载专辑的个数

offset 参数是前面过滤多少个专辑,现在是一页12个专辑,所以第二页是offset=12,第三页offset=24,以此类推。。。

爬虫部分代码

c5ea5744414a4479acfc63b31dfe2967.jpeg

爬虫逻辑

df2c26cc086741118556c91b02f0461a.jpeg

根据上图的网页结构可以看出,所有的专辑信息都在ul 标签里面,每一个专辑在一个li 标签里。li 标签中包含了图片url、专辑名字、以及专辑时间。

加载 iframe 框架中的内容:

driver = webdriver. PhantomJS()driver. get( self.init_url)driver.switch_to.frame( "g_iframe")html = driver.page_source

然后找到所有的封面元素:

f92528db1ace42fc8e62c2055295aff9.jpeg

根据上图的网页结构可以看出,所有的专辑信息都在ul 标签里面,每一个专辑在一个li 标签里。li 标签中包含了图片url、专辑名字、以及专辑时间。

抓取其中的内容就好了。

all_li = BeautifulSoup(html, 'lxml'). find(id= 'm-song-module').find_all( 'li') forli in all_li: album_img = li. find( 'img')[ 'src'] album_name = li. find( 'p', class_= 'dec')[ 'title'] album_date = li. find( 'span', class_= 's-fc3').get_text()

这里获取到的图片url 依然是有图片宽高参数的,所以要过滤宽高参数:

?param=120y120

把问号后面的参数过滤掉:

end_pos= album_img.index( '?') #找到问号的位置 album_img_url= album_img[:end_pos] #截取问号之前的内容

图片命名逻辑:专辑时间 + 专辑名。

专辑名可能有一些特殊字符,需要替换掉!

photo_name = album_date + ' - ' + album_name.replace('/','').replace(':',',') + '.jpg'

完整代码

63713a699b44418d803877597bb77417.jpeg

该代码有BUG,知道错在那里并且修改成功,留言评论即可获取神秘礼包

责任编辑:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值