四十行Python代码,带你爬取热门音乐评论,制作评论词云图!(1)

本文介绍了如何使用Selenium抓取网易云音乐的评论数据,涉及切换框架、页面滚动、数据解析和存储,以及如何使用jieba库进行中文分词和制作词云图的过程。
摘要由CSDN通过智能技术生成

driver.get(‘https://music.163.com/#/song?id=569213220’) #

selenium无法直接获取到嵌套页面里面的数据

switch_to.frame() 切换到嵌套网页

driver.switch_to.frame(0)

让浏览器加载的时候, 等待渲染页面

driver.implicitly_wait(10)

driver.page_source 获取请求页面的 html 数据

print(driver.page_source)

下拉页面, 直接下拉到页面的底部

js = ‘document.documentElement.scrollTop = document.documentElement.scrollHeight’

driver.execute_script(js)

控制翻页 速度太快

for page in range(10):

解析评论数据

divs = driver.find_elements_by_css_selector(‘.itm’) # 所有div css语法: 定位到 html 数据/xpath/正则

for div in divs:

cnt = div.find_element_by_css_selector(‘.cnt.f-brk’).text

cnt = re.findall(‘:(.*)’, cnt)[0] # 中英文有区别

print(cnt)

with open(‘contend.txt’, mode=‘a’, encoding=‘utf-8’) as f:

f.write(cnt + ‘\n’)

翻页 , 找到下一页标签, 点击?

driver.find_element_by_css_selector(‘.znxt’).click()

time.sleep(1)

效果

在这里插入图片描述

爬虫部分完事了,接下来看看词云图部分~

在这里插入图片描述

模块

import jieba # 中文分词库 pip install jieba

import wordcloud # 制作词云图的模块 pip install wordcloud

读取文件数据

with open(‘contend.txt’, mode=‘r’, encoding=‘utf-8’) as f:

txt = f.read()

print(txt)

词云图 分词<中文(词语)> 基于结果

txt_list = jieba.lcut(txt)

print(‘分词结果:’, txt_list)

合并

string_ = ’ '.join(txt_list) # 1 + 1 = 2 字符串的基本语法

print(‘合并分词:’, string_)

import imageio

添加系统环境变量

img = imageio.imread(‘音乐.png’)

创建词云图

wc = wordcloud.WordCloud(

width=1000, # 图片的宽

height=800, # 图片的高

background_color=‘black’, # 图片的背景色

font_path=‘msyh.ttc’, # 微软雅黑

scale=15, # 词云图默认的字体大小

mask=img, # 指定词云图的图片

停用词< 语气词, 助词,…

stopwords=set([line.strip() for line in open(‘cn_stopwords.txt’, mode=‘r’, encoding=‘utf-8’).readlines()] )

)

最后

不知道你们用的什么环境,我一般都是用的Python3.6环境和pycharm解释器,没有软件,或者没有资料,没人解答问题,都可以免费领取(包括今天的代码),过几天我还会做个视频教程出来,有需要也可以领取~

给大家准备的学习资料包括但不限于:

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值