jieba+wordcloud分析豆瓣惊奇队长影评

本文介绍了如何从豆瓣爬取《惊奇队长》的短评,利用jieba进行分词处理,并借助wordcloud生成词云。在分词过程中,为提高准确性,添加了用户词典,解决了jieba对角色名和网络用语识别不足的问题。通过调整停用词,最终得到了反映影评核心内容的词云。
摘要由CSDN通过智能技术生成

复联三过后或许你还惊魂未定就被惊奇队长里的噬元兽吓到恐猫,whatever,本文将会介绍如何从豆瓣爬取惊奇队长的短评并加工处理生成词云。

爬取评论

首先还是爬取评论,老规矩用requests和BeautifulSoup就行。通过查看网页源码容易发现所有的短评都放在span标签中且class为short,这样就很方便了,用find_all就完事了。

# -*- coding:utf-8 -*-
import requests
import time
import random
from bs4 import BeautifulSoup

urls = []
for i in range(0, 500, 20):
    urls.append('https://movie.douban.com/subject/26213252/comments?start=' + str(
        i) + '&limit=20&sort=new_score&status=P')  # 评论的翻页


def singlepage_comment(url):
    # 得到单页的评论
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko)'
                      'Chrome/65.0.3325.162 Safari/537.36'
    }
    html = requests.get(url, headers)
    html.encoding = 'utf-8'
    soup
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值