imageio
大概流程
1、selenium简单使用
2、中文分词库的使用
3、词云图的制作
先看看爬虫部分
导入浏览器的功能
from selenium import webdriver
正则表达式模块, 内置
import re
时间模块, 程序延迟
import time
创建一个浏览器对象
driver = webdriver.Chrome()
请求页面数据
driver.get(‘https://music.163.com/#/song?id=569213220’) #
selenium无法直接获取到嵌套页面里面的数据
switch_to.frame() 切换到嵌套网页
driver.switch_to.frame(0)
让浏览器加载的时候, 等待渲染页面
driver.implicitly_wait(10)
driver.page_source 获取请求页面的 html 数据
print(driver.page_source)
下拉页面, 直接下拉到页面的底部
js = ‘document.documentElement.scrollTop = document.documentElement.scrollHeight’
driver.execute_script(js)
控制翻页 速度太快
for page in range(10):
解析评论数据
divs = driver.find_elements_by_css_selector(‘.itm’) # 所有div css语法: 定位到 html 数据/xpath/正则
for div in divs:
cnt = div.find_element_by_css_selector(‘.cnt.f-brk’).text
cnt = re.findall(‘:(.*)’, cnt)[0] # 中英文有区别
print(cnt)
with open(‘contend.txt’, mode=‘a’, encoding=‘utf-8’) as f:
f.write(cnt + ‘\n’)
翻页 , 找到下一页标签, 点击?
driver.find_element_by_css_selector(‘.znxt’).click()
time.sleep(1)
效果
爬虫部分完事了,接下来看看词云图部分~
模块
import jieba # 中文分词库 pip install jieba
import wordcloud # 制作词云图的模块 pip install wordcloud
读取文件数据
with open(‘contend.txt’, mode=‘r’, encoding=‘utf-8’) as f:
txt = f.read()
print(txt)
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、学习软件
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
三、入门学习视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!