利用AI Studio，分析《安家》评论

最新推荐文章于 2024-09-13 11:18:00 发布

D星尘

最新推荐文章于 2024-09-13 11:18:00 发布

阅读量705

点赞数

文章标签：数据挖掘机器学习深度学习

本文链接：https://blog.csdn.net/dingjin2014/article/details/107334161

版权

本文介绍了如何使用Python爬取并分析豆瓣电视剧《安家》的评论数据。首先通过requests和BeautifulSoup爬取评论，然后利用Pandas和Matplotlib进行数据可视化，分析评论趋势、评分分布和角色受欢迎程度。

摘要由CSDN通过智能技术生成

《安家》是一部讲述房产中介的电视剧，剧中房产中介公司叫做“安家天下”，其中有两个店长，在剧情设定方面，我们就知道，这中间肯定会发生一些有趣的故事。因此使用Python爬取了豆瓣《安家》下所有的评论，进行了数据分析，从观众的角度来了解这部电视剧。

在本案例中，主要分为两个部分：

第一部分是数据爬取。爬虫的过程，从总体来说，就是模仿浏览器的行为，往目标站点发送请求，接收服务器的响应数据，提取需要的信息，并进行保存的过程。Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库等。

（1）requests模块是Python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/。

（2）BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。官网地址：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/。

第二部分是数据分析。本实践中主要使用Pandas和Matplotlib对所爬取的数据进行可视化。

本案例代码运行在一站式开发实训平台AI Studio上，Python版本为3.7.1。

《安家》数据爬取与分析

步骤1：数据爬取

首先找到《安家》的评论页面的链接：https://movie.douban.com/subject/30482003/reviews?sort=time&start=0，这个链接是通过offset来获取评论的，每一页展示20条评论，因此如果要获取下一页的数据，需要发送新的请求。

# 导入必要的包

import json

import re

import requests

from bs4 import BeautifulSoup

def crawl_data(url):

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'

}

url = 'https://movie.douban.com/subject/30482003/reviews'+url

try:

response = requests.get(url, headers=headers)

parse(response)

except Exception as e:

print(e)

第二点是评论内容数据，如果超过一定的字数是会隐藏的，如下图所示：

展开操作，并不是直接在界面上显示一下而已，而是发送了一次HTTP请求，因此我们需要针对每条评论重新请求一次，链接为：https://movie.douban.com/j/review/12380383/full，其中review后面的是这个评论的id，id可以在源代码中获取，这里就不再赘述了。

# 对爬取的页面数据进行解析

def parse(response):

item = {}

# 将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串

soup = BeautifulSoup(response.text, 'lxml')

# 返回的是class为main review-item的<div>所有标签

review_list = soup.find_all('div', {'class': 'main review-item'})

for review_div in review_list:

# 作者

author = review_div.find('a', {'class': 'name'}).text

# 发布时间

pub_time = review_div.find('span', {'class': 'main-meta'}).text

# 评分

rating = review_div.find('span', {'class': 'main-title-rating'})

最低0.47元/天解锁文章

D星尘

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫