四十行Python代码，带你爬取热门音乐评论，制作评论词云图！(1)

最新推荐文章于 2024-07-12 12:11:25 发布

2301_82242675

最新推荐文章于 2024-07-12 12:11:25 发布

阅读量271

点赞数 18

分类专栏：程序员文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_82242675/article/details/138320889

版权

程序员专栏收录该内容

123 篇文章 1 订阅

订阅专栏

本文介绍了如何使用Selenium抓取网易云音乐的评论数据，涉及切换框架、页面滚动、数据解析和存储，以及如何使用jieba库进行中文分词和制作词云图的过程。

摘要由CSDN通过智能技术生成

driver.get(‘https://music.163.com/#/song?id=569213220’) #

selenium无法直接获取到嵌套页面里面的数据

switch_to.frame() 切换到嵌套网页

driver.switch_to.frame(0)

让浏览器加载的时候, 等待渲染页面

driver.implicitly_wait(10)

driver.page_source 获取请求页面的 html 数据

print(driver.page_source)

下拉页面, 直接下拉到页面的底部

js = ‘document.documentElement.scrollTop = document.documentElement.scrollHeight’

driver.execute_script(js)

控制翻页速度太快

for page in range(10):

解析评论数据

divs = driver.find_elements_by_css_selector(‘.itm’) # 所有div css语法: 定位到 html 数据/xpath/正则

for div in divs:

cnt = div.find_element_by_css_selector(‘.cnt.f-brk’).text

cnt = re.findall(‘：(.*)’, cnt)[0] # 中英文有区别

print(cnt)

with open(‘contend.txt’, mode=‘a’, encoding=‘utf-8’) as f:

f.write(cnt + ‘\n’)

翻页 , 找到下一页标签, 点击?

driver.find_element_by_css_selector(‘.znxt’).click()

time.sleep(1)

效果

在这里插入图片描述

爬虫部分完事了，接下来看看词云图部分~

在这里插入图片描述

模块

import jieba # 中文分词库 pip install jieba

import wordcloud # 制作词云图的模块 pip install wordcloud

读取文件数据

with open(‘contend.txt’, mode=‘r’, encoding=‘utf-8’) as f:

txt = f.read()

print(txt)

词云图分词<中文(词语)> 基于结果

txt_list = jieba.lcut(txt)

print(‘分词结果:’, txt_list)

合并

string_ = ’ '.join(txt_list) # 1 + 1 = 2 字符串的基本语法

print(‘合并分词:’, string_)

import imageio

添加系统环境变量

img = imageio.imread(‘音乐.png’)

创建词云图

wc = wordcloud.WordCloud(

width=1000, # 图片的宽

height=800, # 图片的高

background_color=‘black’, # 图片的背景色

font_path=‘msyh.ttc’, # 微软雅黑

scale=15, # 词云图默认的字体大小

mask=img, # 指定词云图的图片

停用词< 语气词, 助词,…

stopwords=set([line.strip() for line in open(‘cn_stopwords.txt’, mode=‘r’, encoding=‘utf-8’).readlines()] )

)

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

18
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄1年

131: 原创

-: 周排名

-: 总排名

8万+: 访问

: 等级

3114: 积分

1287: 粉丝

1744: 获赞

12: 评论

1775: 收藏

私信

关注

热门文章

分类专栏

程序员 123篇

最新评论

python selenium2示例 - 日志管理_python selenium format
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、兼容 loguru模式。相比 loguru 有10胜。 pip install nb_log 。
2024年Java最全女程序员高调炫耀：总包100万，比不了头条的90后，算多吗？(1)，你不看绝对血亏的Volatile全方位解析
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年安卓开发进阶课程！漫谈MySQL权限安全，已拿offer_android开发工程师要求mysql
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年安卓开发进阶课程！漫谈MySQL权限安全，已拿offer_android开发工程师要求mysql
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年Redux源码解析系列 (四)-- 揭秘applyMiddleware工作原理(1)，面试官面试java中级开发工程师
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。