干货(附源代码) | 爬取一万条b站评论,分析9.7分的新番凭啥这么火?

本文通过爬取b站上《工作细胞》的短评,分析这部9.7分动漫受欢迎的原因。文章介绍了动漫背景和爬取评论数据的过程,揭示了评分分布、评论时间趋势、用户活跃时间以及好评内容的特征,指出题材、人设和制作精良是其成功关键。
摘要由CSDN通过智能技术生成

7月番《工作细胞》最终话在十一前放出。这部动漫在b站上评分高达9.7。除了口碑之外,热度也居高不下,更值得关注的是连很多平时不关注动漫的小伙伴也加入了追番大军。这次我们的目标是爬取b站上的所有短评进行分析,用数据说明为什么这部动漫会如此受欢迎。

 

01

工作细胞

 

《工作细胞》改编自清水茜老师的同名漫画,由David Production制作。众所周知,日本ACG作品向来信奉着“万物皆可萌”的原则。前有《黑塔利亚》,后有《舰队Collection》和《兽娘动物园》,分别讲述了将国家,战舰和动物拟人化后的故事。而在《工作细胞》里拟人的对象则轮到了我们的细胞

640?wx_fmt=png

这是一个发生在人体内的故事:

人的细胞数量,约为37兆2千亿个。

其中包括了我们的女主角:一个副业是运输氧气,主业是迷路的红血球。

640?wx_fmt=gif

男主角:一个作者懒得涂色但武力值max的白血球。两人一见面就并肩战斗,分别的时候更是满天粉红气泡。

640?wx_fmt=png

虽然嘴上说着:不会,我只是千千万万个白细胞中的一员。身体却很诚实,从第一集偶遇女主到最后一集,每一集都充满了狗粮的味道。37兆分之一的缘分果然妙不可言。

除了男女主角,配角们的人气也都很高。连反派boss癌细胞都有人喜欢,主要还是因为身世感人+脸长得好。当然人气最!最!最!高的还是我们奶声奶气的血小板。

640?wx_fmt=jpeg

据宅男们反映:“看了这么多番。只有这一部的老婆是大家真正拥有的。”不仅有,还有很多。除了新颖的科普形式,这部番令人感触最深的是:我们每一个人都不是孤独的个体,有37兆个只属于我们的细胞和我们一同工作不息。每当颓唐和失意的时候,为了那些为了保护你而战斗不止的免疫细胞,为了萌萌的老婆们也要振作起来啊。

 

《工作细胞》的成功并不是一个偶然,而是众多因素共同作用的结果。下面从数据的角度分析它成为今年7月播放冠军的原因。

 

02

爬虫

 

首先要做的是爬取b站的所有短评,包括评论用户名、评论时间、星级(评分)、评论内容、点赞数等内容,本部分内容为爬虫代码的说明,不感兴趣的读者可以直接跳过,阅读下一部分的分析。

640?wx_fmt=png

爬的过程写了很久,b站短评不需要登陆直接就可以爬,刚开始用类似之前爬豆瓣的方法,用Selenium+xpath定位爬

640?wx_fmt=png

 

但b站短评用这种方法并不好处理。网站每次最多显示20条短评,滚动条移动到最下面才会加载之后的20条,所以刚开始用了每次爬完之后将定位到当前爬的位置的方法,这样定位到当前加载的最后一条时,就会加载之后的20条短评。

 

逻辑上是解决了这个问题,但真的爬的时候就出现了问题,一个是爬的慢,20条需要十来秒的样子,这个没关系,大不了爬几个小时,但问题是辛辛苦苦爬了两千多条之后,就自动断了,不知道是什么原因,虽然之前爬的数据都存下来了,但没法接着断开的地方接着爬,又要重新开始,还不知道会不会又突然断,所以用这种方法基本就无解了。代码附在下面,虽然是失败的,但也可以爬一些评论下来,供参考。

 1# -*- coding: utf-8 -*-
 2"""
 3Created on Mon Sep 10 19:36:24 2018
 4"""
 5from selenium import webdriver
 6import pandas as pd
 7from datetime import datetime
 8import numpy as np
 9import time
10import os
11
12os.chdir('F:\python_study\pachong\工作细胞')
13def gethtml(url):
14
15    browser = webdriver.PhantomJS()    
16    browser.get(url)
17    browser.implicitly_wait(10)
18    return(browser)
19
20def getComment(url):
21
22    browser =  gethtml(url)
23    i = 1
24    AllArticle = pd.DataFrame(columns = ['i
评论 46
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值