需求:爬取酷狗网页的歌名,时长,链接。
方法一、使用bs4包
1.获取酷狗网站内容
#coding=utf-8
import requests,urllib
from bs4 import BeautifulSoup
import os
result=urllib.request.urlopen("http://www.kugou.com")
2.根据html结构获取目标标签内容
soup=BeautifulSoup(result.read(),'html.parser')
for i in soup.find_all("div"):
if i.get("id")=="SongtabContent":
s=i.find_all("li")
3.保存
with open(r"d://music.txt","w",encoding="utf-8") as f:#创建要写入文件对象
for i in s:
f.write("歌曲名称为: %s "%i.a.select(".songName")[0].text)
f.write("歌曲播放连接为: %s "% i.a.get("href"))
f.write("歌曲播放时间为: %s" %i.a.select(".songTime")[0].text)
f.write(os.linesep)
方法二、使用scrapy框架
1)创建目录