python爬取3万+条评论,解读猫眼评分9.5的《海王》是否值得一看?

102 篇文章 2 订阅

图1

前言

2018年12月7日,本年度最后一部压轴大片《海王》如期上映,目前猫眼评分达到9.5分,靠着1.5亿美金的制作成本,以小博大,目前票房接近9亿,本文爬取了猫眼3w+条评论,多方位带你解读是否值得一看!!其实(yin)我(wei)也(mei)没(qian)看!

图2

数据爬取

现在猫眼电影网页似乎已经全部服务端渲染了,没有发现相应的评论接口,参考了之前其他文章中对于猫眼数据的爬取方法,找到了评论接口!

http://m.maoyan.com/mmdb/comments/movie/249342.json?v=yes&offset=15&startTime=2018-1208 19%3A17%3A16。

图3

接口有了,但是没有对应的电影id,不过这难不倒我们,使用猫眼app+charles,我们成功找到海王对应的电影ID;
图4

接下来爬取评论:

获取数据

def get_data(url):
headrs = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103
Safari/537.36"
}
html = request(method='GET',url=url,headers=headrs)
if html.status_code == 200:
return html.content
else:
return None

解析接口返回数据

#处理接口返回数据
def parse_data(html):
json_data = json.loads(html,encoding='utf-8')['cmts']
comments = []
try:
for item in json_data:
comment = {
'nickName':item['nickName'],
'cityName':item['cityName'] if 'cityName' in item else '',
'content':item['content'].strip().replace('\n',''),
'score':item['score'],
'startTime': item['startTime']
}
comments.append(comment)
return comments
except Exception as e:
print(e)

处理链接及存储数据

def change_url_and_save():
start_time = time.strftime('%Y-%m-%d ``%H:%M:%S',time.localtime(time.time())).replace(' ','%20')
end_time = '2018-12-07 00:00:00'
while start_time > end_time:
url = "http://m.maoyan.com/mmdb/comments/movie/249342.json?``v=yes&offset=15&startTime="+start_time
html = None
try:
html = get_data(url)
except Exception as e:
time.sleep(0.5)
html = get_data(url)
else:
time.sleep(0.1)
comments = parse_data(html)
start_time = comments[14]['startTime']
print(start_time)
t = datetime.datetime.now()
start_time = time.strptime(start_time,'%Y-%m-%d %H:%M:%S')
start_time = datetime.datetime.fromtimestamp(time.mktime(start_time))+datetime.timedelta(``seconds=-1
start_time = time.mktime(start_time.timetuple())
start_time = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(start_time)).replace(' ', '%20')
for item in comments:
print(item)
with open('/Users/mac/Desktop/H5DOC/H5learn/REPTILE/comments.txt', 'a', encoding='utf-8')as f:
f.write(item['nickName'] + ',' + item['cityName'] + ',' + item['content'] + ',' ``+ ``str(item['score']) +','+ item[`` startTime'] + '\n')

最终我们获取到了大约33000条数据

图5
数据分析
数据分析我们使用了百度的pyecharts、excel以及使用wordcloud生成词云

首先看一下,评论分布热力图:

图6

京津冀、长三角、珠三角等在各种榜单长期霸榜单的区域,在热力图中,依然占据着重要地位。而新一线的川渝、郑州武汉紧随其后!

下面是评论数前20的城市

图7

评论全国分布图:

图8

由图中可以看出基本与热力图相似,主要分布在各大一线、新一线城市,对于杭州为何会排在第17的位置,我觉得可能是阿里大本营,大家都用淘票票的缘故吧!??
接下来是评分占比情况

图9

由图中可以看出,评分在4以上的占比达到了94%,而平均评分也达到4.68分!!!

再来看一下各城市评分情况:

图10

看了评分再来看看评论的词云情况:

图11
https://upload-images.jianshu.io/upload_images/15184619-32e0709b2a824e92.png?imageMogr2/auto-orient/strip|imageView2/2/w/1240)
图12
词云出现较多的是好看、特效、剧情、震撼等,可以看出大家对此电影对特效和剧情还是十分认同的,毕竟烂番茄新鲜度73%,1.5亿美元的制作能做到如此实属不易,我还是决定这周末去影院刷一下的!

词云代码:

def data_wordclound():
comments = ''
with open('comments.txt','r') as f:
rows = f.readlines()
try:
for row in rows:
lit = row.split(',')
if len(lit) >= 3:
comment = lit[2]
if comment != '':
comments += ' '.join(jieba.cut(comment.strip()))
# print(comments)
except Exception as e:
print(e)

hai_coloring = imread('hai.jpeg')
# 多虑没用的停止词
stopwords = STOPWORDS.copy()
stopwords.add('电影')
stopwords.add('一部')
stopwords.add('一个')
stopwords.add('没有')
stopwords.add('什么')
stopwords.add('有点')
stopwords.add('感觉')
stopwords.add('海王')
stopwords.add('就是')
stopwords.add('觉得')
stopwords.add('DC')
bg_image = plt.imread('hai.jpeg')
font_path = '/System/Library/Fonts/STHeiti Light.ttc'
wc = WordCloud(width=1024, height=768, background_color='white', mask=bg_image, font_path=font_path,
               stopwords=stopwords, max_font_size=400, random_state=50)

wc.generate(comments)
images_colors = ImageColorGenerator(hai_coloring)
plt.figure()
plt.imshow(wc.recolor(color_func=images_colors))
plt.axis('off')
plt.show()

综上,我觉得没看的小伙伴可以跟我一样一起周末去贡献一下票房了!哈哈哈哈哈

小编推荐一个学python的学习qun 740,3222,34
无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值