Python爬虫小白教学篇:豆瓣9

本文介绍了使用Python的BeautifulSoup和requests库抓取豆瓣电影评论,提取热评内容,并使用WordCloud进行关键词可视化。作者强调了系统学习和动手实践的重要性。
摘要由CSDN通过智能技术生成

所以我们只需获取全部class值为short的span标签即可获取当前页面全部热评

在这里插入图片描述

spans = data.find_all(class_="short")
for i in spans:
     global_text += ",".join(jieba.cut(str(i.text).strip()))


完整代码
import matplotlib.pyplot as plt
import wordcloud
import jieba
from imageio import imread
import requests
from bs4 import BeautifulSoup


global_text = ""

def getDetail(data):
    global global_text
    data = BeautifulSoup(data,"html.parser")
    spans = data.find_all(class_="short")
    for i in spans:
        global_text += ",".join(jieba.cut(str(i.text).strip())) # 对获取到的热评分词


def toWordCloud():
    global global_text
    mask = imread("./9.png") #设置背景图
    wcd = wordcloud.WordCloud(
        font_path="C:\Windows\Fonts\msyh.ttc",
        background_color='white', #设置背景颜色
        random_state=80, # 颜色种类
        mask=mask)
    wcd.generate(global_text)

    wcd.to_file("res.jpg") #保存为图片
    plt.imshow(wcd)
    plt.axis('off')
    plt.show()


if __name__ == '\_\_main\_\_':
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.64"
    }
    url = 'https://movie.douban.com/subject/30228394/comments?percent\_type=h&start={}&limit=20&status=P&sort=new\_score'
    for i in range(6,10):
        new_url = url.format(i \* 20)
        response = requests.get(url=url,headers=headers)
        response.encoding = 'utf-8'
        getDetail(response.text)

    toWordCloud()




CSDN独家福利降临!!!

最近CSDN有个独家出品的活动,也就是下面的《Python的全栈知识图谱》,路线规划的非常详细,尺寸 是870mm x 560mm 小伙伴们可以按照上面的流程进行系统的学习,不要自己随便找本书乱学,要系统的有规律的学习,它的基础才是最扎实的,在我们这行,《基础不牢,地动山摇》尤其明显。

最后,如果有兴趣的小伙伴们可以酌情购买,为未来铺好道路!!!

在这里插入图片描述


最后

我是 Code皮皮虾,一个热爱分享知识的 皮皮虾爱好者,未来的日子里会不断更新出对大家有益的博文,期待大家的关注!!!

创作不易,如果这篇博文对各位有帮助,希望各位小伙伴可以一键三连哦!,感谢支持,我们下次再见~~~

分享大纲

大厂面试题专栏

Java从入门到入坟学习路线目录索引

开源爬虫实例教程目录索引

更多精彩内容分享,请点击 Hello World (●’◡’●)

本文爬虫源码已由 GitHub https://github.com/2335119327/PythonSpider 已经收录(内涵更多本博文没有的爬虫,有兴趣的小伙伴可以看看),之后会持续更新,欢迎Star

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值