Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特

该博客介绍了如何使用Python爬虫从豆瓣电影抓取《复仇者联盟3》的全部评论,将其存储到本地,并通过词云技术生成以格鲁特形象展示的评论分析图。提供了详细的代码实现过程和运行效果。
摘要由CSDN通过智能技术生成

代码地址如下:
http://www.demodashi.com/demo/13257.html

1. 需求说明

本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件。然后对影评进行分词分析,使用词云生成树人格鲁特的形象照片。

2. 代码实现

此部分主要解释Python爬虫部分及使用词云生成图像的代码

Python爬虫

首先获取需要爬取的网页地址,然后通过requests.get()方式去获取网页,代码如下:

# 获取网页
def getHtml(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        return r.text
    except:
        return ''

获取到网页之后,对网页中的元素进行正则匹配,找到评论相关的元素,并获取。

# 获取某个网页中的影评
def getComment(html):
    soup = BeautifulSoup(html, 'html.parser')
    comments_list = []
    comment_nodes = soup.select('.comment > p')
    for node in comment_nodes:
        comments_list.append(node.get_text().strip().replace("\n", "") + u'\n')
    return comments_list

将爬取到的影评保存至文本文件中,以备后续分析使用。

def saveCommentText(fpath):
    pre_url = "https://movie.douban.com/subject/24773958/comments?"
    depth = 8
    with open(fpath, 'a', encoding='utf-8') as f:
        for i in range(depth):
            url = pre_url + 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值