毕设开源 基于大数据的抖音短视频数据分析与可视化


0 前言

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。

为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是

🚩 基于大数据的抖音短视频数据分析与可视化

🥇学长这里给一个题目综合评分(每项满分5分)

  • 难度系数:3分
  • 工作量:3分
  • 创新点:3分

🧿 选题指导, 项目分享:见文末

1 课题背景

本项目是大数据—基于抖音用户数据集的可视化分析。抖音作为当下非常热门的短视频软件,其背后的数据有极高的探索价值。本项目根据1737312条用户行为数据,利用python工具进行由浅入深的内容分析,目的是挖掘其中各类信息,更好地进行内容优化、产品运营。

2 数据清洗

数据信息查看

简单看一下前5行数据,确定需要进一步预处理的内容:数据去重、删除没有意义的第一列,部分列格式转换、异常值检测。

# 读取数据
df = pd.read_csv('data.csv')
df.head()

在这里插入图片描述

df.info()

在这里插入图片描述

数据去重

无重复数据

print('去重前:',df.shape[0],'行数据')
print('去重后:',df.drop_duplicates().shape[0],'行数据')

缺失值查看

print(np.sum(df.isnull()))

在这里插入图片描述

变量类型转换

real_time 和 date 转为时间变量,id、城市编码转为字符串,并把小数点去掉

df['date'] = df['date'].astype('datetime64[ns]')
df['real_time'] = df['real_time'].astype('datetime64[ns]')
df['uid'] = df['uid'].astype('str')
df['user_city'] = df['user_city'].astype('str')
df['user_city'] = df['user_city'].apply(lambda x:x[:-2])
df['item_id'] = df['item_id'].astype('str')
df['author_id'] = df['author_id'].astype('str')
df['item_city'] = df['item_city'].astype('str')
df['item_city'] = df['item_city'].apply(lambda x:x[:-2])
df['music_id'] = df['music_id'].astype('str')
df['music_id'] = df['music_id'].apply(lambda x:x[:-2])
df.info()

在这里插入图片描述

3 数据可视化

基本信息的可视化,面向用户、创作者以及内容这三个维度进行,构建成分画像,便于更好地针对用户、创作者进行策略投放、内容推广与营销。

地区-用户

user_city_count = user_info.groupby(['user_city']).count().sort_values(by=['uid'],ascending=False)
x1 = list(user_city_count.index)
y1 = user_city_count['uid'].tolist()
len(y1)

不同地区用户数量分布图

#柱形图代码
chart = Bar()
chart.add_xaxis(x1)
chart.add_yaxis('地区使用人数', y1, color='#F6325A',
                     itemstyle_opts={'barBorderRadius':[60, 60, 20, 20]},
                      label_opts=opts.LabelOpts(position='top'))
chart.set_global_opts(datazoom_opts=opts.DataZoomOpts(
    range_start=0,range_end=5,orient='horizontal',type_='slider',is_zoom_lock=False,  pos_left='1%' ),
    visualmap_opts=opts.VisualMapOpts(is_show = False,type_='opacity',range_opacity=[0.2, 1]),
                     title_opts=opts.TitleOpts(title="不同地区用户数量分布图",pos_left='40%'),
                     legend_opts=opts.LegendOpts(pos_right='10%',pos_top='2%'))
chart.render_notebook()

在这里插入图片描述

覆盖到了387个城市,其中编号为99的城市用户比较多超过2000人,6、129、109、31这几个城市的使用人数也超过了1000。

  • 可以关注用户较多城市的特点,对产品受众有进一步的把握。
  • 用户较少的城市可以视作流量洼地,考虑进行地推/用户-用户的推广,增加地区使用人数。

观看时间

h_num = round((df.groupby(['H']).count()['uid']/10000),1).to_list()
h = list(df.groupby(['H']).count().index)

不同时间观看数量分布图

chart = Line()
chart.add_xaxis(h)
chart.add_yaxis('观看数/(万)',h_num, areastyle_opts=opts.AreaStyleOpts(color = '#1AF5EF',opacity=0.3),
                                  itemstyle_opts=opts.ItemStyleOpts(color='black'),
                                  label_opts=opts.LabelOpts(font_size=12))
chart.set_global_opts(legend_opts=opts.LegendOpts(pos_right='10%',pos_top='2%'),
                     title_opts=opts.TitleOpts(title="不时间观看数量分布图",pos_left='40%'),)
chart.render_notebook()

去掉时差后
在这里插入图片描述

根据不同时间的观看视频数量来看,11-18,20-21,尤其是13-16是用户使用的高峰期

  • 在用户高浏览的时段进行广告的投放,曝光量更高
  • 在高峰段进行优质内容的推荐,效果会更好

分界线

点赞/完播率分布图

left = df.groupby(['H']).sum()[['finish','like']]
right = df.groupby(['H']).count()['uid']
per = pd.concat([left,right],axis=1)
per['finish_radio'] = round(per['finish']*100/per['uid'],2)
per['like_radio'] = round(per['like']*100/per['uid'],2)
x = list(df.groupby(['H']).count().index)
y1 = per['finish_radio'].to_list()
y2 = per['like_radio'].to_list()
#建立一个基础的图形
chart1 = Line()
chart1.add_xaxis(x)
chart1.add_yaxis('完播率/%',y1,is_smooth=True,label_opts=opts.LabelOpts(is_show=False),is_symbol_show = False,
                                      linestyle_opts=opts.LineStyleOpts(color='#F6325A',opacity=.7,curve=0,width=2,type_= 'solid' ))
chart1.set_global_opts(yaxis_opts =  opts.AxisOpts(min_=25,max_=45))
chart1.extend_axis(yaxis=opts.AxisOpts(min_=0.4,max_=3))
#叠加折线图
chart2 = Line()   
chart2.add_xaxis(x)
chart2.add_yaxis('点赞率/%',y2,yaxis_index=1,is_smooth=True,label_opts=opts.LabelOpts(is_show=False),is_symbol_show = False,
                                            linestyle_opts=opts.LineStyleOpts(color='#1AF5EF',opacity=.7,curve=0,width=2,type_= 'solid' ))
chart1.overlap(chart2) 
chart1.set_global_opts(legend_opts=opts.LegendOpts(pos_right='10%',pos_top='2%'),
                     title_opts=opts.TitleOpts(title="点赞/完播率分布图",pos_left='40%'),)

chart1.render_notebook()

在这里插入图片描述

关注到点赞率和完播率,这两个与用户粘性、创作者收益有一定关系的指标。可以看到15点是两个指标的小高峰,2、4、20、23完播较高,8、13、18、20点赞率较高。但结合观看数量与时间段的分布图,大致猜测15点深度用户较多。

  • 关注深度用户特点,思考如何增加普通用户的完播、点赞

每周观看

df['weekday'] = df['date'].dt.weekday
week = df.groupby(['weekday']).count()['uid'].to_list()
df_pair = [['周一', week[0]], ['周二', week[1]], ['周三', week[2]], ['周四', week[3]], ['周五', week[4]], ['周六', week[5]], ['周日', week[6]]]
chart = Pie()
chart.add('', df_pair,radius=['40%', '70%'],rosetype='radius',center=['45%', '50%'],label_opts=opts.LabelOpts(is_show=True,formatter = '{b}:{c}次'))
chart.set_global_opts(visualmap_opts=[opts.VisualMapOpts(min_=200000,max_=300000,type_='color', range_color=['#1AF5EF', '#F6325A', '#000000'],is_show=True,pos_top='65%')],
                      legend_opts=opts.LegendOpts(pos_right='10%',pos_top='2%',orient='vertical'),
                     title_opts=opts.TitleOpts(title="一周内播放分布图",pos_left='35%'),)

chart.render_notebook()

在这里插入图片描述

在统计的时间内周一到周三观看人数较多,但总体观看次数基本在20-30w之间。

  • 创作者选择在周一-三这几天分布可能会收获更多的观看数量

观看路径

df.groupby(['channel']).count()['uid']

在这里插入图片描述

观看途径主要以1为主,初步猜测为App。3途径也有部分用户使用,可能为浏览器。

  • 考虑拓宽各个观看渠道,增加总体播放量和产品使用度
  • 非主渠道观看,制定策略提升转化,将流量引入主渠道
  • 针对主要渠道内容进行商业化策略投放,效率更高

发布地点

author_info = df.drop_duplicates(['author_id','item_city'])[['author_id','item_city']]
author_info.info()
author_city_count = author_info.groupby(['item_city']).count().sort_values(by=['author_id'],ascending=False)
x1 = list(author_city_count.index)
y1 = author_city_count['author_id'].tolist()
df.drop_duplicates(['author_id']).shape[0]

不同城市创作者分布图

chart = Bar()
chart.add_xaxis(x1)
chart.add_yaxis('地区创作者人数', y1, color='#F6325A',
                     itemstyle_opts={'barBorderRadius':[60, 60, 20, 20]})
chart.set_global_opts(datazoom_opts=opts.DataZoomOpts(
    range_start=0,range_end=5,orient='horizontal',type_='slider',is_zoom_lock=False,  pos_left='1%' ),
    visualmap_opts=opts.VisualMapOpts(is_show = False,type_='opacity',range_opacity=[0.2, 1]),
                     legend_opts=opts.LegendOpts(pos_right='10%',pos_top='2%'),
                     title_opts=opts.TitleOpts(title="不同城市创作者分布图",pos_left='40%'))
chart.render_notebook()

在这里插入图片描述

观看用户地区分布和创作者分布其实存在不对等的情况。4地区创作者最多,超5k人,33、42、10地区创作者也较多。

  • 创作者与地区的联系也值得关注,尤其是创作内容如果和当地风俗环境人文有关
  • 相邻近地区的优质的创作者之间互动,可以更好的引流

视频时长

time = df.drop_duplicates(['item_id'])[['item_id','duration_time']]
time = time.groupby(['duration_time']).count()
x1 = list(time.index)
y1 = time['item_id'].tolist()

不同时长作品分布图

chart = Bar()
chart.add_xaxis(x1)
chart.add_yaxis('视频时长对应视频数', y1, color='#1AF5EF',
                     itemstyle_opts={'barBorderRadius':[60, 60, 20, 20]},
               label_opts=opts.LabelOpts(font_size=12,  color='black'))
chart.set_global_opts(datazoom_opts=opts.DataZoomOpts(
    range_start=0,range_end=50,orient='horizontal',type_='slider'),
    visualmap_opts=opts.VisualMapOpts(max_=100000,min_=200,is_show = False,type_='opacity',range_opacity=[0.4, 1]),
                     legend_opts=opts.LegendOpts(pos_right='10%',pos_top='2%'),
                     title_opts=opts.TitleOpts(title="不同时长作品分布图",pos_left='40%'))

chart.render_notebook() 

在这里插入图片描述

视频时长主要集中在9-10秒,符合抖音“短”视频的特点。

  • 官方提供9/10秒专用剪视频模板,提高创作效率
  • 创作者关注创意浓缩和内容提炼
  • 视频分布在这两个时间点的爆发也能侧面反映用户刷视频的行为特征

整体点赞、完播

like_per = 100*np.sum(df['like'])/len(df['like'])
finish_per = 100*np.sum(df['finish'])/len(df['finish'])
gauge = Gauge()
gauge.add("",[("视频互动率", like_per),['完播率',finish_per]],detail_label_opts=opts.LabelOpts(is_show=False,font_size=18),
                                  axisline_opts=opts.AxisLineOpts(linestyle_opts=opts.LineStyleOpts(
                                      color=[(0.3, "#1AF5EF"), (0.7, "#F6325A"), (1, "#000000")],width=20)))
gauge.render_notebook()

在这里插入图片描述

内容整体完播率非常接近40%,点赞率在1%左右

  • 用户更多是“刷”视频,挖掘吸引力和作品连贯性,能更好留住用户
  • 点赞功能挖掘不够,可尝试进行ABtest,对点赞按钮增加动画,测试是否会提升点赞率

4 进阶分析

相关性分析

df_cor = df[['finish','like','duration_time','H']] # 只选取部分
cor_table = df_cor.corr(method='spearman')
cor_array = np.array(cor_table)
cor_name = list(cor_table.columns)
value = [[i, j, cor_array[i,j]] for i in [3,2,1,0] for j in [0,1,2,3]] 
heat = HeatMap()
heat.add_xaxis(cor_name)
heat.add_yaxis("",cor_name,value,label_opts=opts.LabelOpts(is_show=True, position="inside"))
heat.set_global_opts(visualmap_opts=opts.VisualMapOpts(is_show=False, max_=0.08, range_color=["#1AF5EF", "#F6325A", "#000000"]))
heat.render_notebook()

在这里插入图片描述

因为变量非连续,采取spearman相关系数,制作相关性热力图。由于数据量比较大的缘故,几个数量性变量之间的相关性都比较小,其中看到finish和点赞之间的相关系数稍微大一些,可以一致反映用户对该视频的偏好。

留存率

pv/uv

temp = df['date'].to_list()
puv = df.groupby(['date']).agg({'uid':'nunique','item_id':'count'})
uv = puv['uid'].to_list()
pv = puv['item_id'].to_list()
time = puv.index.to_list()
chart1 = Line()
chart1.add_xaxis(time)
chart1.add_yaxis('uv',uv,is_smooth=True,label_opts=opts.LabelOpts(is_show=False),is_symbol_show = False,
                linestyle_opts=opts.LineStyleOpts(color='#1AF5EF',opacity=.7,curve=0,width=2,type_= 'solid' ))
chart1.add_yaxis('pv',pv,is_smooth=True,label_opts=opts.LabelOpts(is_show=False),is_symbol_show = False,
                linestyle_opts=opts.LineStyleOpts(color='#F6325A',opacity=.7,curve=0,width=2,type_= 'solid' ))
chart1.render_notebook()

在这里插入图片描述

在2019.10.18进入用户使用高峰阶段,目标用户单人每天浏览多个视频。

  • 关注高峰时间段,是否是当下推荐算法起作用了

7/10 留存率

lc = []
for i in range(len(time)-7):
    bef = set(list(df[df['date']==time[i]]['uid']))
    aft = set(list(df[df['date']==time[i+7]]['uid']))
    stay = bef&aft
    per = round(100*len(stay)/len(bef),2)
    lc.append(per)
    
lc1 = []
for i in range(len(time)-1):
    bef = set(list(df[df['date']==time[i]]['uid']))
    aft = set(list(df[df['date']==time[i+1]]['uid']))
    stay = bef&aft
    per = round(100*len(stay)/len(bef),2)
    lc1.append(per)
x7 = time[0:-7]
chart1 = Line()
chart1.add_xaxis(x7)
chart1.add_yaxis('七日留存率/%',lc,is_smooth=True,label_opts=opts.LabelOpts(is_show=False),is_symbol_show = False,
                linestyle_opts=opts.LineStyleOpts(color='#F6325A',opacity=.7,curve=0,width=2,type_= 'solid' ))
chart1.set_global_opts(legend_opts=opts.LegendOpts(pos_right='10%',pos_top='2%'),
                     title_opts=opts.TitleOpts(title="用户留存率分布图",pos_left='40%'),)

chart1.render_notebook()

在这里插入图片描述

用户留存率保持在40%+,且没有跌破30%,说明获取到的数据中忠实用户较多。

  • 存在一定可能性是因为数据只爬取了特定用户群体的行为数据,结合创作者数量>用户数量可得到验证
  • 但一定程度可以反映软件留存这块做的不错

5 深度分析

客户价值判断

通过已观看数、完播率、点赞率进行用户聚类,价值判断

df1 = df.groupby(['uid']).agg({'item_id':'count','like':'sum','finish':'sum'})
df1['like_per'] = df1['like']/df1['item_id']
df1['finish_per'] = df1['finish']/df1['item_id']
ndf1 = np.array(df1[['item_id','like_per','finish_per']])#.shape
kmeans_per_k = [KMeans(n_clusters=k).fit(ndf1) for k in range(1,8)]
inertias = [model.inertia_ for model in kmeans_per_k]
chart = Line(init_opts=opts.InitOpts(width='560px',height='300px'))
chart.add_xaxis(range(1,8))
chart.add_yaxis("",inertias,label_opts=opts.LabelOpts(is_show=False),
                linestyle_opts=opts.LineStyleOpts(color='#F6325A',opacity=.7,curve=0,width=3,type_= 'solid' ))
chart.render_notebook()

在这里插入图片描述

n_cluster = 4
cluster = KMeans(n_clusters=n_cluster,random_state=0).fit(ndf1)
y_pre = cluster.labels_ # 查看聚好的类
from sklearn.metrics import silhouette_score
from sklearn.metrics import silhouette_samples
silhouette_score(ndf1,y_pre) 
n_cluster = 3
cluster = KMeans(n_clusters=n_cluster,random_state=0).fit(ndf1)
y_pre = cluster.labels_ # 查看聚好的类
from sklearn.metrics import silhouette_score
from sklearn.metrics import silhouette_samples
silhouette_score(ndf1,y_pre)

比较三类、四类的轮廓系数,确定聚为3类

c_ = [[],[],[]]
c_[0] = [87.998,9.1615,39.92]
c_[1] = [13.292,12.077,50.012]
c_[2] = [275.011,8.125,28.751]
bar = Bar(init_opts=opts.InitOpts(theme='macarons',width='1000px',height='400px')) # 添加分类(x轴)的数据
bar.add_xaxis(['播放数','点赞率(千分之)','完播率(百分之)'])
bar.add_yaxis('0', [round(i,2) for i in c_[0]], stack='stack0') 
bar.add_yaxis('1',[round(i,2) for i in c_[1]], stack='stack1') 
bar.add_yaxis('2',[round(i,2) for i in c_[2]], stack='stack2') 
bar.render_notebook()

在这里插入图片描述

可以大致对三类的内容做一个描述。

  1. 紫色 - 观看数量较少,但点赞完播率都非常高的:对内容观看有耐心,愿意产生额外性行为。因此通过观看兴趣内容打散、可以刺激用户观看更多视频。e.g.多推荐有悬念、连续性的短视频
  2. 绿色 - 观看数量适中,点赞率、完播率有所下滑,对这类用户的策略可以中和先后两种。
  3. 蓝色 - 观看数量非常多,点赞、完播率教室,这类用户更多会关注到视频前半段的内容,兴趣点可通过停留时间进行判断,但使用时间相对较长,反映产品依赖性,一定程度上来说算是核心用户。e.g.利用停留时间判断喜好,优化推荐算法,重点推荐前半段内容吸引力大的。

5 最后

  • 34
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 基于Python数据分析可视化系统是一种利用Python编程语言进行数据分析可视化的系统。它可以帮助用户更好地理解和分析数据,从而做出更好的决策。该系统通常包括数据收集、数据清洗、数据分析数据可视化等功能,可以应用于各种领域,如商业、科学、医疗等。Python作为一种流行的编程语言,具有易学易用、灵活性强、开源免费等优点,因此在数据分析可视化领域得到了广泛应用。 ### 回答2: Python作为一种开源的编程语言,同时也是数据分析可视化的重要工具之一。基于Python数据分析可视化系统是一种集数据采集、清洗、分析和可视化于一体的工具,使得数据分析人员能够更快捷、高效地处理海量数据Python数据分析可视化系统通常包含以下几个方面: 1. 数据采集与清洗:Python可以通过各种第三方库,如BeautifulSoup、Selenium、Scrapy等,实现从网页、数据库、API等渠道获取数据,并通过Pandas等数据处理工具实现数据清洗和预处理。 2. 数据分析与处理:Python中有许多强大的数据分析、统计学和机器学习库,例如NumPy、SciPy、StatsModels、scikit-learn等,这些库可以满足数据分析的需求。 3. 数据可视化Python中有多个可视化工具包,例如Matplotlib、Seaborn、Bokeh、Plotly等,这些工具可以帮助数据分析人员通过图表、图像等形式呈现数据信息,更加直观地展现分析结果。 基于Python数据分析可视化系统的优势在于其开源、简单易学、丰富的第三方库和强大的可视化工具。同时,Python还具有跨平台特性,可以在不同的操作系统上运行。 总之,基于Python数据分析可视化系统是一种强大、高效的数据处理工具,能够帮助数据分析人员实现数据的采集、处理和可视化,帮助企业和机构更好地理解和利用数据,提高数据决策的质量和效率。 ### 回答3: 随着大数据时代的到来和数据量的爆炸式增长,数据分析可视化已成为企业发展的重要一环。Python因其易学易用、开源且拥有丰富的数据科学库而成为数据科学家和业界工程师的首选。基于Python数据分析可视化系统可以提供一种高效而迅捷的解决方案,能够对海量数据进行整合、分析和可视化展示,同时也可以提高分析师和决策者在处理数据的效率。 基于Python数据分析可视化系统通常涵盖以下几个层次: 1. 数据收集和整合 企业通常会面临来自多个来源的数据,例如交易记录、用户反馈、生产日志等。基于Python数据分析可视化系统可以帮助企业将这些来自不同来源的数据进行整合,使其能够在统一的平台下进行分析。 2. 数据预处理和清洗 在大数据时代,无论是结构化数据还是非结构化数据都存在噪音、丢失值和异常值。基于Python数据分析可视化系统可以通过数据预处理和清洗的方法,处理这些问题,使得分析和可视化的结果更加准确和完整。 3. 数据分析和建模 基于Python数据科学库,例如pandas、numpy等可以提供基础的数据处理、计算和统计分析的功能。而在这些功能的基础上,scikit-learn和TensorFlow等高级数据科学库也可以帮助企业实现复杂的机器学习和深度学习模型,从而更好地分析数据并从中获得有价值的信息。 4. 可视化呈现 基于Python可视化库,例如matplotlib、seaborn和plotly等,可以提供各种绘图界面,帮助用户将经过分析后的数据以更好的方式进行可视化呈现,帮助企业管理层更快速地了解业务状况和决策支持。 综上所述,基于Python数据分析可视化系统可以帮助企业在海量数据中找到有价值的信息,了解业务现状,发现潜在问题,并提出科学合理的解决方案。它不仅可以提高企业数据分析的效率、准确性和可靠性,也可以为企业在竞争的市场中寻找到新的商业机会。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值