Python爬虫小白教学篇：豆瓣9.3超高评分《觉醒年代》热评爬取生成精美词云！！！

最新推荐文章于 2021-08-18 11:27:34 发布

Code皮皮虾

最新推荐文章于 2021-08-18 11:27:34 发布

阅读量2.7k

点赞数 57

分类专栏： Python精选爬虫专栏文章标签： python 爬虫数据可视化词云

本文链接：https://blog.csdn.net/llllllkkkkkooooo/article/details/118531845

版权

Python爬虫同时被 2 个专栏收录

52 篇文章 415 订阅

订阅专栏

Python精选爬虫专栏

39 篇文章 4 订阅

订阅专栏

文章目录

精美词云

在这里插入图片描述

《觉醒年代》热评爬取讲解

在这里插入图片描述

点击好评

在这里插入图片描述

多页爬取讲解

在这里插入图片描述

热评爬取分析

一个热评对应一个class值为comment-item的div标签

所以我们只需获取全部class值为comment-item的div标签即可获取当前页面全部热评

在这里插入图片描述

但是，热评具体又存储在class值为comment-itemdiv标签下的class值为short的span标签下

所以我们只需获取全部class值为short的span标签即可获取当前页面全部热评

在这里插入图片描述

spans = data.find_all(class_="short")
for i in spans:
     global_text += ",".join(jieba.cut(str(i.text).strip()))

完整代码

import matplotlib.pyplot as plt
import wordcloud
import jieba
from imageio import imread
import requests
from bs4 import BeautifulSoup


global_text = ""

def getDetail(data):
    global global_text
    data = BeautifulSoup(data,"html.parser")
    spans = data.find_all(class_="short")
    for i in spans:
        global_text += ",".join(jieba.cut(str(i.text).strip())) # 对获取到的热评分词


def toWordCloud():
    global global_text
    mask = imread("./9.png") #设置背景图
    wcd = wordcloud.WordCloud(
        font_path="C:\Windows\Fonts\msyh.ttc",
        background_color='white', #设置背景颜色
        random_state=80, # 颜色种类
        mask=mask)
    wcd.generate(global_text)

    wcd.to_file("res.jpg") #保存为图片
    plt.imshow(wcd)
    plt.axis('off')
    plt.show()


if __name__ == '__main__':
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.64"
    }
    url = 'https://movie.douban.com/subject/30228394/comments?percent_type=h&start={}&limit=20&status=P&sort=new_score'
    for i in range(6,10):
        new_url = url.format(i * 20)
        response = requests.get(url=url,headers=headers)
        response.encoding = 'utf-8'
        getDetail(response.text)

    toWordCloud()

CSDN独家福利降临！！！

最近CSDN有个独家出品的活动，也就是下面的《Python的全栈知识图谱》，路线规划的非常详细,尺寸是870mm x 560mm 小伙伴们可以按照上面的流程进行系统的学习，不要自己随便找本书乱学，要系统的有规律的学习，它的基础才是最扎实的，在我们这行，《基础不牢，地动山摇》尤其明显。

最后，如果有兴趣的小伙伴们可以酌情购买，为未来铺好道路！！！

在这里插入图片描述

最后

我是 Code皮皮虾，一个热爱分享知识的皮皮虾爱好者，未来的日子里会不断更新出对大家有益的博文，期待大家的关注！！！

创作不易，如果这篇博文对各位有帮助，希望各位小伙伴可以一键三连哦！，感谢支持，我们下次再见~~~

分享大纲

大厂面试题专栏

 Java从入门到入坟学习路线目录索引

 开源爬虫实例教程目录索引

更多精彩内容分享，请点击 Hello World (●’◡’●)

本文爬虫源码已由 GitHub https://github.com/2335119327/PythonSpider 已经收录（内涵更多本博文没有的爬虫,有兴趣的小伙伴可以看看）,之后会持续更新，欢迎Star。

Code皮皮虾

关注

57
点赞
踩
93

收藏

觉得还不错? 一键收藏
47
评论
Python爬虫小白教学篇：豆瓣9.3超高评分《觉醒年代》热评爬取生成精美词云！！！

文章目录精美词云《觉醒年代》热评爬取讲解多页爬取讲解热评爬取分析完整代码CSDN独家福利降临！！！最后精美词云《觉醒年代》热评爬取讲解点击好评多页爬取讲解热评爬取分析一个热评对应一个class值为comment-item的div标签所以我们只需获取全部class值为comment-item的div标签即可获取当前页面全部热评但是，热评具体又存储在class值为comment-itemdiv标签下的class值为short的span标签下所以我们只需获取全部cla
复制链接

扫一扫

专栏目录