Python爬虫-爬取电影《星际穿越》评论并提取关键词

最新推荐文章于 2024-09-15 13:36:39 发布

JMbaozi

最新推荐文章于 2024-09-15 13:36:39 发布

阅读量1.7k

点赞数 3

文章标签： python 经验分享其他

本文链接：https://blog.csdn.net/qq_43547504/article/details/105358580

版权

我的个人博客：https://jmbaozi.top/

这次选择了我最喜欢的电影《星际穿越》的短评，共爬取了500条评论，并且用jieba分词提取了100个关键词。程序文件点我查看

100个关键词中有感情色彩的"情感"，“亲情”，“人性”，"煽情"权重值较高，也很好的反映了《星际迷航》剧情的走向和发展。“震撼”，“五星”，“神作”，"烧脑"等也说明了这部电影的深度和精彩。

剧情简介

近未来的地球黄沙遍野，小麦、秋葵等基础农作物相继因枯萎病灭绝，人类不再像从前那样仰望星空，放纵想象力和灵感的迸发，而是每日在沙尘暴的肆虐下倒数着所剩不多的光景。在家务农的前NASA宇航员库珀（马修·麦康纳 Matthew McConaughey 饰）接连在女儿墨菲（麦肯吉·弗依 Mackenzie Foy 饰）的书房发现奇怪的重力场现象，随即得知在某个未知区域内前NASA成员仍秘密进行一个拯救人类的计划。多年以前土星附近出现神秘虫洞，NASA借机将数名宇航员派遣到遥远的星系寻找适合居住的星球。在布兰德教授（迈克尔·凯恩 Michael Caine 饰）的劝说下，库珀忍痛告别了女儿，和其他三名专家教授女儿艾米莉亚·布兰德（安妮·海瑟薇 Anne Hathaway 饰）、罗米利（大卫·吉雅西 David Gyasi 饰）、多伊尔（韦斯·本特利 Wes Bentley 饰）搭乘宇宙飞船前往目前已知的最有希望的三颗星球考察。
　　他们穿越遥远的星系银河，感受了一小时七年光阴的沧海桑田，窥见了未知星球和黑洞的壮伟与神秘。在浩瀚宇宙的绝望而孤独角落，总有一份超越了时空的笃定情怀将他们紧紧相连……

流程

爬取短评
保存评论
用jieba模块提取关键词
保存关键词及其权重值

游客访问豆瓣只能爬取11页评论，所以要先登入自己的账号，找到对应的Cookie作为标头，这样就可以爬取所有的短评了。(我把我的Cookie删掉了，你可以用你自己的Cookie来设置。)

1.爬取短评

def getComments(id,pageNum):
    movieComments = ""
    for i in range(pageNum):
        start = i*20
        url = "https://movie.douban.com/subject/"+str(id)+"/comments?start="+str(start)+"&limit=20&sort=new_score&status=P"
        headers = {
   
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36 Edg/81.0.416.45',
            'Cookie':''
        }
        print("正在爬取第%s页评论" % (i+1))
        r = requests.get(url,headers=headers)
        soup = BeautifulSoup(r.text,'lxml')
        commentsList = soup.find_all('span',class_ ='short')
        for comments in

最低0.47元/天解锁文章