导语
这周末就分享个小爬虫吧。利用Python爬取并简单地可视化分析当当网的图书数据。
开发工具
Python版本:
3.6.4
相关模块:
requests模块;
bs4模块;
wordcloud模块;
jieba模块;
pillow模块;
pyecharts模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
数据爬取
任务:
根据给定的关键字,爬取与该关键字相关的所有图书数据。
实现:
以关键字为python为例,我们要爬取的图书数据的网页页面是这样子的:
其中,网页的链接格式为:

本文介绍了一个Python爬虫项目,用于抓取和分析当当网上与关键词'python'相关的图书数据。通过使用requests、bs4、wordcloud等模块,爬取了61页图书信息,包括价格、评分和评论数量。数据显示,最贵的书籍价格为28390元,评论数量最多的图书是'Python in Computers Programming'。此外,还进行了价格、评分分布的可视化,并制作了图书简介的词云图。最后,作者分享了如何组合961张图书封面创建文章封面的代码。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



