python从入门到放弃篇42(selenium库,random库,time库,wordcloud库)从爬取名人名言动态网页到词云可视化(jupyter notebook编辑器)

昨天,我自己做了一个简单的爬取到可视化案例,我觉得可视化比较有趣。所以,今天推出爬取名人名言到词云可视化的案例。

我们这次案例用的编辑器是jupyter notebook,要不然做不出词云的效果。
我们这次案例的网址是:http://quotes.toscrape.com/js/,进入后看见如下画面:
在这里插入图片描述
爬虫部分的完整代码,如下图。
想要了解这段代码的朋友,可以去参见我前面第29篇的内容。

from selenium import webdriver
from random import randint
import time

url = 'http://quotes.toscrape.com/js/'
driver = webdriver.Chrome()
driver.get(url)
driver.implicitly_wait(3)

xpath_road = '/html/body/div'
says = driver.find_element_by_xpath(xpath_road)
with open(r'名人名言.txt','a',encoding='utf-8') as f:
    f.write(says.text+'\n')
#print(says.text)
next_page = driver.find_element_by_xpath('/html/body/div/nav/ul/li/a')
next_page.click()

for i in range(1,10):
    xpath_road2 = '/html/body/div'
    says2 = driver.find_element_by_xpath(xpath_road2)
    with open(r'名人名言.txt','a',encoding='utf-8') as f:
        f.write(says2.text+'\n')
        time.sleep(randint(2,3))
    #print(says2.text)
    time.sleep(1)
    if i == 9:
        break
    else:
        next_page2 = driver.find_element_by_xpath('/html/body/div/nav/ul/li[2]/a')
        next_page2.click()

结果:
在这里插入图片描述
可对比最后的结果是一致的,所以,我们已经全部爬取下来了。接下来,我们进入下一步,就是文件操作,我们先读取文件(文件默认保存在编辑器的目录下面,我是用pycharm爬的,用jupyter做的词云,不要奇怪我文件保存的目录),如下图:
在这里插入图片描述
从运行结果来看,所有内容都读取出来了,后面还有很多内容,我就不全部截图了,请大家见谅。
在这里插入图片描述
然后,我们进行词云可视化,修改代码,如下图:

from wordcloud import WordCloud#导入词云库
import matplotlib.pyplot as plt#导入matplotlib库的pyplot模块绘图
filename = 'D:/pycharm_project/名人名言.txt'#编辑器目录下的文件
with open(filename,'r+',encoding='utf-8') as f:#读取方式打开文件,设置编码方式为utf-8.
    text = f.read()#读取文件
    #print(text)

    wordcloud = WordCloud(background_color="White").generate(text)#导入文本,设置背景色为白色。
    %pylab inline
    plt.imshow(wordcloud,interpolation='bilinear')
    plt.axis("off")#让横轴和纵轴隐藏

运行结果:
在这里插入图片描述
Oh!!,见证奇迹的时刻,出现了我们期待已久的词云。很开森,因为今天又有新的收获了。感觉效果很炫酷,可以出去炫一波了,哈哈。

最后,感谢大家前来观看鄙人的文章,文中或有诸多不妥之处,还望指出和海涵。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不羁_神话

感谢支持,欢迎交流。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值