爬取中国医生的短评并制作词云

爬取中国医生的短评

今天早上,学妹发来信息问:中国医生好不好看。像我这种这喜欢看黑丝怎么会看正经电影呢。但学妹既然问了,我怎么着也得给他答复。于是我看看了短评,褒贬不一。为了不能糊弄学妹,于是我打算用爬虫爬取影评制作词云来分析。在这里插入图片描述

观察网址

这是要爬取的网址:
‘https://movie.douban.com/subject/35087699/comments?start=0&limit=20&status=P&sort=new_score’
经过我的的观察,第一页start=0,第二有页start=20,依次。
这样就好办了

直接上代码
import requests 
from lxml import etree
import jieba
import wordcloud
import itertools
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
}
pl_list=[]#存放影评
cut_pllist=[]#存放用jieba分割后的影评
for i in range(0,20*20,20):#这里就线爬取20页
    url = 'https://movie.douban.com/subject/35087699/comments?start={}&limit=20&status=P&sort=new_score'.format(i)
    r = requests.get(url=url,headers=headers).text
    tree = etree.HTML(r)
    pl = tree.xpath('//span[@class="short"]/text()')
    pl_list.append(pl)
pl_list = list(itertools.chain.from_iterable(pl_list))#一行式展平列表
#分词
for j in pl_list:
    a= jieba.lcut(j)
    cut_pllist.append(a)
cut_pllist = list(itertools.chain.from_iterable(cut_pllist))
pl_text = ' '.join(cut_pllist)
#制作词云
pl1 = wordcloud.WordCloud( font_path="msyh.ttc",width=1000,height=700,max_words=50)
pl1.generate(pl_text)
pl1.to_file('5.png')

这是运行出来的图片:
在这里插入图片描述
我一看,怎么这么多无关内容呢。在优化一下。
于是,我将这些没用的词语在列表中删除:

def delet(alist,str1):
    for i in alist:
        if i ==str1:
            alist.remove(i)
    return alist
cut_pllist = delet(cut_pllist,'的')
cut_pllist = delet(cut_pllist,'了')
cut_pllist = delet(cut_pllist,'电影')
cut_pllist = delet(cut_pllist,'我')
cut_pllist = delet(cut_pllist,'是')
cut_pllist = delet(cut_pllist,'和')
cut_pllist = delet(cut_pllist,'在')
cut_pllist = delet(cut_pllist,'我们')
cut_pllist = delet(cut_pllist,'很')
cut_pllist = delet(cut_pllist,'都')
cut_pllist = delet(cut_pllist,'人')
cut_pllist = delet(cut_pllist,'也')

再次运行:
在这里插入图片描述
发现好多了。这下可以交代了。跟学妹说了之后,她向我发出了感谢:
在这里插入图片描述


若果你觉得你对你有用就点个赞呗。
关注我,分享更多爬虫知识。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值