利用AI Studio,分析《安家》评论

《安家》是一部讲述房产中介的电视剧,剧中房产中介公司叫做“安家天下”,其中有两个店长,在剧情设定方面,我们就知道,这中间肯定会发生一些有趣的故事。因此使用Python爬取了豆瓣《安家》下所有的评论,进行了数据分析,从观众的角度来了解这部电视剧。

在本案例中,主要分为两个部分:

第一部分是数据爬取。爬虫的过程,从总体来说,就是模仿浏览器的行为,往目标站点发送请求,接收服务器的响应数据,提取需要的信息,并进行保存的过程。Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库等。

(1)requests模块是Python实现的简单易用的HTTP库,官网地址:http://cn.python-requests.org/zh_CN/latest/。

(2)BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。官网地址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/。

第二部分是数据分析。本实践中主要使用Pandas和Matplotlib对所爬取的数据进行可视化。

本案例代码运行在一站式开发实训平台AI Studio上,Python版本为3.7.1。

《安家》数据爬取与分析

步骤1:数据爬取

首先找到《安家》的评论页面的链接:https://movie.douban.com/subject/30482003/reviews?sort=time&start=0,这个链接是通过offset来获取评论的,每一页展示20条评论,因此如果要获取下一页的数据,需要发送新的请求。

# 导入必要的包

import json

import re

import requests

from bs4 import BeautifulSoup

 

def crawl_data(url):

headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'

         }

url = 'https://movie.douban.com/subject/30482003/reviews'+url

try:

         response = requests.get(url, headers=headers)

         parse(response)

except Exception as e:

         print(e)

第二点是评论内容数据,如果超过一定的字数是会隐藏的,如下图所示:

展开操作,并不是直接在界面上显示一下而已,而是发送了一次HTTP请求,因此我们需要针对每条评论重新请求一次,链接为:https://movie.douban.com/j/review/12380383/full,其中review后面的是这个评论的id,id可以在源代码中获取,这里就不再赘述了。

# 对爬取的页面数据进行解析

def parse(response):

item = {}

# 将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串

soup = BeautifulSoup(response.text, 'lxml')

# 返回的是class为main review-item的<div>所有标签

review_list = soup.find_all('div', {'class': 'main review-item'})

for review_div in review_list:

         # 作者

         author = review_div.find('a', {'class': 'name'}).text

         # 发布时间

         pub_time = review_div.find('span', {'class': 'main-meta'}).text

         # 评分

         rating = review_div.find('span', {'class': 'main-title-rating'})

         if rating:

             rating = rating.get('title')<

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值