python爬虫之爬取百度音乐的实现方法

最新推荐文章于 2024-07-15 10:36:04 发布

程序员arlly

最新推荐文章于 2024-07-15 10:36:04 发布

阅读量4.5k

点赞数 1

分类专栏： python爬虫文章标签：编程语言 python

本文链接：https://blog.csdn.net/haoxun12/article/details/105163042

版权

本文介绍了如何使用Python爬虫改进方法，高效抓取百度音乐榜单的歌曲名、歌手和排名信息。通过分析网页结构，利用Beautifulsoup结合Python内置的re模块，避免重复查找父节点，提升爬虫效率。文中详细阐述了re模块的运用，并提供了完整代码示例。

摘要由CSDN通过智能技术生成

今天小编就为大家分享一篇python爬虫之爬取百度音乐的实现方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
在上次的爬虫中，抓取的数据主要用到的是第三方的Beautifulsoup库，然后对每一个具体的数据在网页中的selecter来找到它，每一个类别便有一个select方法。对网页有过接触的都知道很多有用的数据都放在一个共同的父节点上，只是其子节点不同。在上次爬虫中，每一类数据都要从其父类（包括其父节点的父节点）上往下寻找ROI数据所在的子节点，这样就会使爬虫很臃肿，因为很多数据有相同的父节点，每次都要重复的找到这个父节点。这样的爬虫效率很低。

因此，笔者在上次的基础上，改进了一下爬取的策略，笔者以实例来描述。在这里插入图片描述
如图，笔者此次爬取的是百度音乐的页面，所爬取的类容是上面榜单下的所有内容（歌曲名，歌手，排名）。如果按照上次的爬虫的方法便要写上三个select方法，分别抓取歌曲名，歌手，排名，但笔者观察得知这三项数据皆放在一个li标签内，如图：在这里插入图片描述
这样我们是不是直接抓取ul标签，再分析其中的数据便可得到全部数据了？答案是，当然可以。

但Beaufulsoup不能直接提供这样的方法，但Python无所不能，python里面自带的re模块是我见过最迷人的模块之一。它能在字符串中找到我们让我们roi的区域，上述的li标签中包含了我们需要的歌曲名，歌手，排名数据，我们只需要在li标签中通过re.findall()方法，便可找到我们需要的数据。这样就能够大大提升我们爬虫的效率。

我们先来直接分析代码：

def parse_one_page(html): 
 soup = BeautifulSoup(html, 'lxml') 
 data = soup.select('div.ranklist-wrapper.clearfix div.bd ul.song-list li') 
 pattern1 = re.compile(r'<li.*?<div class="index">(.*?)</div>.*?title="(.*?)".*?title="(

最低0.47元/天解锁文章

程序员arlly

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
python爬虫之爬取百度音乐的实现方法

今天小编就为大家分享一篇python爬虫之爬取百度音乐的实现方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧在上次的爬虫中，抓取的数据主要用到的是第三方的Beautifulsoup库，然后对每一个具体的数据在网页中的selecter来找到它，每一个类别便有一个select方法。对网页有过接触的都知道很多有用的数据都放在一个共同的父节点上，只是其子节点不同。在上次爬虫中，每一类...
复制链接

扫一扫