爬取中国医生的短评并制作词云

本文通过爬虫技术抓取豆瓣电影《中国医生》的用户评论,去除非关键信息后,分析并制作词云,揭示观众对医生角色的真实反馈,为学妹提供观影意见。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取中国医生的短评

今天早上,学妹发来信息问:中国医生好不好看。像我这种这喜欢看黑丝怎么会看正经电影呢。但学妹既然问了,我怎么着也得给他答复。于是我看看了短评,褒贬不一。为了不能糊弄学妹,于是我打算用爬虫爬取影评制作词云来分析。在这里插入图片描述

观察网址

这是要爬取的网址:
‘https://movie.douban.com/subject/35087699/comments?start=0&limit=20&status=P&sort=new_score’
经过我的的观察,第一页start=0,第二有页start=20,依次。
这样就好办了

直接上代码
import requests 
from lxml import etree
import jieba
import wordcloud
import itertools
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
}
pl_list=[]#存放影评
cut_pllist=[]#存放用jieba分割后的影评
for i in range(0,20*20,20):#这里就线爬取20页
    url = 'https://movie.douban.com/subject/35087699/comments?start={}&limit=20&status=P&sort=new_score'.format(i)
    r = requests.get(url=url,headers=headers).text
    tree = etree.HTML(r)
    pl = tree.xpath('//span[@class="short"]/text()')
    pl_list.append(pl)
pl_list = list(itertools.chain.from_iterable(pl_list))#一行式展平列表
#分词
for j in pl_list:
    a= jieba.lcut(j)
    cut_pllist.append(a)
cut_pllist = list(itertools.chain.from_iterable(cut_pllist))
pl_text = ' '.join(cut_pllist)
#制作词云
pl1 = wordcloud.WordCloud( font_path="msyh.ttc",width=1000,height=700,max_words=50)
pl1.generate(pl_text)
pl1.to_file('5.png')

这是运行出来的图片:
在这里插入图片描述
我一看,怎么这么多无关内容呢。在优化一下。
于是,我将这些没用的词语在列表中删除:

def delet(alist,str1):
    for i in alist:
        if i ==str1:
            alist.remove(i)
    return alist
cut_pllist = delet(cut_pllist,'的')
cut_pllist = delet(cut_pllist,'了')
cut_pllist = delet(cut_pllist,'电影')
cut_pllist = delet(cut_pllist,'我')
cut_pllist = delet(cut_pllist,'是')
cut_pllist = delet(cut_pllist,'和')
cut_pllist = delet(cut_pllist,'在')
cut_pllist = delet(cut_pllist,'我们')
cut_pllist = delet(cut_pllist,'很')
cut_pllist = delet(cut_pllist,'都')
cut_pllist = delet(cut_pllist,'人')
cut_pllist = delet(cut_pllist,'也')

再次运行:
在这里插入图片描述
发现好多了。这下可以交代了。跟学妹说了之后,她向我发出了感谢:
在这里插入图片描述


若果你觉得你对你有用就点个赞呗。
关注我,分享更多爬虫知识。

内容概要:该论文深入研究了液压挖掘机动臂下降势能回收技术,旨在解决传统液压挖掘机能耗高的问题。提出了一种新型闭式回路势能回收系统,利用模糊PI自整定控制算法控制永磁无刷直流电动机,实现了变转速容积调速控制,消除了节流和溢流损失。通过建立数学模型和仿真模型,分析了同负载下的系统性能,开发了试验平台验证系统的高效性和节能效果。研究还涵盖了执行机构能量分布分析、系统元件参数匹配及电机控制性能优化,为液压挖掘机节能技术提供了理论和实践依据。此外,通过实验验证,该系统相比传统方案可降低28%的能耗,控制系统响应时间缩40%,为工程机械的绿色化、智能化发展提供了关键技术支撑。 适合人群:从事工程机械设计、制造及维护的工程师和技术人员,以及对液压系统节能技术感兴趣的科研人员。 使用场景及目标:①理解液压挖掘机闭式回路动臂势能回收系统的原理和优势;②掌握模糊PI自整定控制算法的具体实现;③学习如何通过理论建模、仿真和实验验证来评估和优化液压系统的性能。 其他说明:此研究仅提供了详细的理论分析和数学建模,还给出了具体的仿真代码和实验数据,便于读者在实际工作中进行参考和应用。研究结果表明,该系统仅能显著提高能源利用效率,还能延长设备使用寿命,降低维护成本,具有重要的工程应用价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值