python爬虫实例网易云-爬虫示例-网易云歌单

最新推荐文章于 2024-08-09 13:31:27 发布

weixin_37988176

最新推荐文章于 2024-08-09 13:31:27 发布

阅读量502

点赞数

爬取网易云音乐的歌单。

打开歌单的url: http://music.163.com/#/discov...，然后用lxml.html提取播放数3715。结果表明，我们什么也没提取到。难道我们打开了一个假的网页？

动态网页：所谓的动态网页，是指跟静态网页相对的一种网页编程技术。静态网页，随着html代码的生成，页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则不然，页面代码虽然没有变，但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。

值得强调的是，不要将动态网页和页面内容是否有动感混为一谈。这里说的动态网页，与网页上的各种动画、滚动字幕等视觉上的动态效果没有直接关系，动态网页也可以是纯文字内容的，也可以是包含各种动画的内容，这些只是网页具体内容的表现形式，无论网页是否具有动态效果，只要是采用了动态网站技术生成的网页都可以称为动态网页。

现在我们明白了，这是一个动态网页，我们得到它的时候，歌单还没请求到呢，当然什么都提取不出来！

我们之前的技术不能执行那些让页面产生各种神奇效果的JavaScript 代码。如果网站的HTML页面没有运行JavaScript，就可能和你在浏览器里看到的样子完全不同，因为浏览器可以正确地执行JavaScript。用Python 解决这个问题只有两种途径：直接从JavaScript 代码里采集内容，或者用Python 的第三方库运行JavaScript，直接采集你在浏览器里看到的页面。我们当然选择后者。今天第一课，不深究原理，先简单粗暴的实现我们的小目标。

Selenium：是一个强大的网络数据采集工具，其最初是为网站自动化测试而开发的。近几年，它还被广泛用于获取精确的网站快照，因为它们可以直接运行在浏览器上。Selenium 库是一个在WebDriver 上调用的API。WebDriver 有点儿像可以加载网站的浏览器，但是它也可以像BeautifulSoup对象一样用来查找页面元素，与页面上的元素进行交互（发送文本、点击等），以及执行其他动作来运行网络爬虫。安装方式与其他Python第三方库一样

安装: pip3 install Selenium

验证一下:

bVbihrx?w=891&h=195

Selenium 自己不带浏览器，它需要与第三方浏览器结合在一起使用。例如，如果你在Firefox 上运行Selenium，可以直接看到一个Firefox 窗口被打开，进入网站，然后执行你在代码中设置的动作。虽然这样可以看得更清楚，但不适用于我们的爬虫程序，爬一页就打开一页效率太低，所以我们用一个叫PhantomJS的工具代替真实的浏览器。

PhantomJS：是一个"无头”（headless）浏览器。它会把网站加载到内存并执行页面上的JavaScript，但是它不会向用户展示网页的图形界面。把Selenium和PhantomJS 结合在一起，就可以运行一个非常强大的网络爬虫了，可以处理cookie、JavaScript、header，以及任何你需要做的事情。

PhantomJS并不是Python的第三方库，不能用pip安装。它是一个完善的浏览器，所以你需要去它的官方网站下载，然后把可执行文件拷贝到Python安装目录的Scripts文件夹, 或者随便一个目录在ＰＡＴＨ中的目录

开始干活！

用Chrome的"开发者工具”F12先分析一下，很容易就看穿了一切。

bVbihr7?w=745&h=287

播放数nb (number broadcast)：29915

封面 msk (mask)：有标题和url

同理，可以找到"下一页”的url，最后一页的url是"javascript:void(0)”。

最后，让我们用代码完成工作。

from selenium import webdriver

url = "https://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0"

driver = webdriver.PhantomJS()

driver.get(url) # 加载页面

driver.switch_to.frame("contentFrame") # 切换到歌单所在的iframe

# 歌单所有项目的包裹元素

data = driver.find_element_by_id('m-pl-container').find_elements_by_tag_name('li')

for d in data:

nb = d.find_element_by_class_name('nb').text # 播放数

msk = d.find_element_by_css_selector("a.msk")

print(msk.get_attribute('title'), nb, msk.get_attribute('href'))

结果

由于selenium在不久的将来会放弃对phantomjs的支持，所以这里也提供一个替代方案，使用chrome的headless模式。使用这个模式你需要下载chromedriver, 并把这个文件所在目录加到PATH，也可以拷贝到python路径下面

from selenium import webdriver

url = "https://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0"

chromeOptions = webdriver.ChromeOptions()

chromeOptions.add_argument("headless")

driver = webdriver.Chrome(chrome_options=chromeOptions)

driver.get(url) # 加载页面

driver.switch_to.frame("contentFrame") # 切换到歌单所在的iframe

# 歌单所有项目的包裹元素

data = driver.find_element_by_id('m-pl-container').find_elements_by_tag_name('li')

for d in data:

nb = d.find_element_by_class_name('nb').text # 播放数

msk = d.find_element_by_css_selector("a.msk")

print(msk.get_attribute('title'), nb, msk.get_attribute('href'))

最后打个广告, 天气变化快，大家注意加衣

bVbndrc?w=258&h=258

weixin_37988176

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫