爬虫思路:
网页分为两个部分,歌单广场和歌单详情页。总体思路是先从歌单广场获取所有的URL然后去详情页进行解析。
最后的数据大概这个样子:
歌单广场:
在广场中需要实现获取所有歌单详情页的URL链接。
研究URL不难发现这样的规律,改变cat可以换歌单的大分类(华语,流行,全部等),limit是每页显示35个歌单,这里是第二页所以offset是35*2=70。那么只需要采用for循环就可以。
![](https://i-blog.csdnimg.cn/blog_migrate/1e3541e8cdf61eee528023aab0c91df3.jpeg)
右键打开检查我们可以发现关于歌单详情页URL就在a标签下面herf,之后beautifulsoup就可以获取,查看一下具体歌单详情页的URL确实是这样,只需要做一下字符串的拼接就可以了。
![](https://i-blog.csdnimg.cn/blog_migrate/79136ffbd3a862d9df40b5254149883d.png)
下面是代码:
import requests as rq
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import time
import concurrent.futures
from multiprocessing.dummy import Pool as pool
##后面所有的代码都是调的这些个库,我习惯写pd np因为懒。。。
list1=[]
headers = {
'Referer': 'http://music.163.com/',
'Host': 'music.163.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'
}
def getHTMLText(url,headers): #通用的获取网站内容的框架
try:
r = rq.get(url,headers=headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "网络解析错误"
def get_url(cat):#获取首页该分类下面的歌单url,形成url_list
depth=38
start_url='https://music.163.com/discover/playlist/?order=hot&cat='+cat
for i in range(depth):
try:
url=start_url+'&limit=35'+'&offset='+str(35*(i+1))
html=getHTMLText(url,headers)
parse_main(html)
except:
print('失败')
continue
def parse_main(html):#解析每个广场页,bs4弄出来歌单名,歌单URL
soup=BeautifulSoup(html,'html.parser')
c=soup.find_all('li')
for unit in c:
try:
name_url=unit.find('a',{
'class':"tit f-thide s-fc0"})#m这里有URL,名字的信息
number=eval(unit.find('span',{
'class':'nb'}).text.replace('万','0000'))#这里获取的是播放量的信息,用于初步筛选
list1=[name_url['title'].replace(u'\xa0', u' '),number,name_url['href']]
url_list.append(list1)
except:
continue
弄出来list1大概这个样子:
[歌单名,播放次数,URL]
之后按照每个URL进入相应的详情页解析就可以了。
歌单详情页:
需要获取具体信息:
这里渴望拿到的是所属标签,播放次数,转发次数,收藏次数,评论量,歌单标题和歌单长度。他们的解析途径都差不多,都是beautifulsoup。我们可以看一个:
![](https://i-blog.csdnimg.cn/blog_migrate/722845ee0195e1cb8fddc1edd8b2332b.jpeg)
不难看到总共有两个属性,都在div标签下的a标签下的i,我们根据特征找到左右class为u-tag的标签然后弄出来它的text就行了。
tags=soup.find_all('a',{
'class':'u-tag'})
##中间有省略
tag1=tags[0].text.replace(u'\xa0', u' ')
下面是具