《安家》是一部讲述房产中介的电视剧,剧中房产中介公司叫做“安家天下”,其中有两个店长,在剧情设定方面,我们就知道,这中间肯定会发生一些有趣的故事。因此使用Python爬取了豆瓣《安家》下所有的评论,进行了数据分析,从观众的角度来了解这部电视剧。
在本案例中,主要分为两个部分:
第一部分是数据爬取。爬虫的过程,从总体来说,就是模仿浏览器的行为,往目标站点发送请求,接收服务器的响应数据,提取需要的信息,并进行保存的过程。Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库等。
(1)requests模块是Python实现的简单易用的HTTP库,官网地址:http://cn.python-requests.org/zh_CN/latest/。
(2)BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。官网地址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/。
第二部分是数据分析。本实践中主要使用Pandas和Matplotlib对所爬取的数据进行可视化。
本案例代码运行在一站式开发实训平台AI Studio上,Python版本为3.7.1。
《安家》数据爬取与分析
步骤1:数据爬取
首先找到《安家》的评论页面的链接:https://movie.douban.com/subject/30482003/reviews?sort=time&start=0,这个链接是通过offset来获取评论的,每一页展示20条评论,因此如果要获取下一页的数据,需要发送新的请求。
# 导入必要的包
import json
import re
import requests
from bs4 import BeautifulSoup
def crawl_data(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
}
url = 'https://movie.douban.com/subject/30482003/reviews'+url
try:
response = requests.get(url, headers=headers)
parse(response)
except Exception as e:
print(e)
第二点是评论内容数据,如果超过一定的字数是会隐藏的,如下图所示:
展开操作,并不是直接在界面上显示一下而已,而是发送了一次HTTP请求,因此我们需要针对每条评论重新请求一次,链接为:https://movie.douban.com/j/review/12380383/full,其中review后面的是这个评论的id,id可以在源代码中获取,这里就不再赘述了。
# 对爬取的页面数据进行解析
def parse(response):
item = {}
# 将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
soup = BeautifulSoup(response.text, 'lxml')
# 返回的是class为main review-item的<div>所有标签
review_list = soup.find_all('div', {'class': 'main review-item'})
for review_div in review_list:
# 作者
author = review_div.find('a', {'class': 'name'}).text
# 发布时间
pub_time = review_div.find('span', {'class': 'main-meta'}).text
# 评分
rating = review_div.find('span', {'class': 'main-title-rating'})