大数据毕业设计:Python电影数据采集分析可视化系统✅
🍅大家好,今天给大家分享一个Python项目,感兴趣的可以先收藏起来,点赞、关注不迷路!🍅
大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助同学们顺利毕业 。1、项目介绍
技术栈:
Python语言、Flask框架、requests爬虫、Echarts可视化、LayUI框架、HTML、网易云数据
(1)分析可视化模块:
分析可视化模块包括歌单中国地图、最受欢迎的歌单类型、歌单分享评论数变化、歌曲歌单数量范围、最受欢迎的歌单、歌单收藏量变化、语种类型歌单 播放量等等。
(2)后台管理功能模块
后台管理功能模块包括歌曲歌单数据采集、用户管理、公告管理、歌单数据管理。
2、项目界面
(1)Echarts可视化大屏
(2)后台管理系统
(3)音乐数据管理
(4)用户数据管理
(5)注册登录界面
3、项目说明
时代在进步,科技在进步,互联网改变了世界,在互联网时代,各行各业的人们都在寻求增长点,人们的日常生活越来越离不开互联网。音乐成为了人们生活中不可或缺的一部分,而网易云音乐作为国内最受欢迎的音乐平台之一,积累了大量的用户和歌单数据。然而,在互联网信息和海量数据源混合的情况下,如何快速精确的找到自己想要的数据是一个值得探讨的问题。针对这些数据,本文将进行各种分析和挖掘,从而更好地理解用户需求和市场趋势。
本文就是基于这个背景而设计的,本系统以Python计算机设计语言为基础,使用 requests爬虫技术对音乐网站的音乐信息源进行抓取,针对网页信息编写抽取规则,对音乐数据进行必要的过滤和提取,使用MySql对音乐数据进行数据存储。最终使用 Python 开源Flask框架构建的数据服务接口实现数据的可视化展示和数据管理。
(1)分析可视化模块:
分析可视化模块包括歌单中国地图、最受欢迎的歌单类型、歌单分享评论数变化、歌曲歌单数量范围、最受欢迎的歌单、歌单收藏量变化、语种类型歌单 播放量等等。
(2)后台管理功能模块
后台管理功能模块包括歌曲歌单数据采集、用户管理、公告管理、歌单数据管理。
4、核心代码
from flask import Flask, render_template, url_for
import json
import pandas as pd
import pymysql
import re
import decimal
from flask import Flask as _Flask, flash
from flask import request, session
from flask.json import JSONEncoder as _JSONEncoder, jsonify
import service.users_data as user_service
import service.notice_data as notice_data
import service.music_data as music_service
import datetime
"""最受欢迎的歌单类型"""
@app.route('/get_hot_type')
def get_hot_type():
hot_type_df = df[['type', 'play_count']].groupby(df['type']).sum().sort_values('play_count',
ascending=False).reset_index()
hot_type_top7 = hot_type_df.head(7)
playlist_type = hot_type_top7['type'].tolist()
play_count = hot_type_top7['play_count'].tolist()
return json.dumps({'playlist_type': playlist_type, 'play_count': play_count}, ensure_ascii=False)
"""最受欢迎的歌单"""
@app.route('/get_hot_playlist')
def get_hot_playlist():
hot_playlist_df = df[['name', 'play_count']].sort_values('play_count', ascending=False).reset_index()
hot_playlist_top5 = hot_playlist_df.head(5)
playlist_name = hot_playlist_top5['name'].tolist()
play_count = hot_playlist_top5['play_count'].tolist()
return json.dumps({'playlist_name': playlist_name, 'play_count': play_count}, ensure_ascii=False)
"""歌单数据随月份变化"""
@app.route('/get_month_data')
def get_month_data():
yearList = []
# 获取当前日期和时间
current_date = datetime.datetime.now()
# 获取今年年份
this_year = current_date.year
# 获取去年年份
last_year = this_year - 1
for year in [last_year, this_year]:
year = str(year)
yearList.append({
"year": year,
"data": [
df[df['create_time'].str[:4] == year].groupby(df['create_time'].str[5:7]).sum().reset_index()[
'share_count'].tolist(),
df[df['create_time'].str[:4] == year].groupby(df['create_time'].str[5:7]).sum().reset_index()[
'comment_count'].tolist()
]
})
month = df[df['create_time'].str[:4] == str(this_year)].groupby(df['create_time'].str[5:7]).sum().reset_index()[
'create_time'].tolist()
yearData = {
"yearData": yearList,
"monthList": [str(int(x)) + '月' for x in month]
}
return json.dumps(yearData, ensure_ascii=False)
"""歌单数据随天数变化"""
@app.route('/get_day_data')
def get_day_data():
non_vip_df = df[df['vip_type'] == '0'].groupby(df['create_time'].str[8:10]).sum().reset_index()[
['create_time', 'subscribed_count']]
vip_df = \
df[(df['vip_type'] == '10') | (df['vip_type'] == '11')].groupby(
df['create_time'].str[8:10]).sum().reset_index()[
['create_time', 'subscribed_count']]
vip_type_df = pd.merge(non_vip_df, vip_df, left_on='create_time', right_on='create_time', how='inner')
sub_data = {
"day": [str(int(x)) for x in vip_type_df["create_time"].tolist()],
"vip": vip_type_df["subscribed_count_y"].tolist(),
"nonvip": vip_type_df["subscribed_count_x"].tolist(),
}
return json.dumps(sub_data, ensure_ascii=False)
"""歌单歌曲数量分布"""
@app.route('/get_track_data')
def get_track_data():
bins = [0, 50, 150, 500, 100000]
cuts = pd.cut(df['tracks_num'], bins=bins, right=False, include_lowest=True)
data_count = cuts.value_counts()
data = dict(zip([str(x) for x in data_count.index.tolist()], data_count.tolist()))
map_data = [{'name': name, 'value': value} for name, value in data.items()]
track_value = {'t_v': map_data}
return json.dumps(track_value, ensure_ascii=False)
"""语种类型歌单播放量"""
@app.route('/get_type_data')
def get_type_data():
playlist_type_df = df[['type', 'play_count']].groupby(df['type']).sum()
playlist_type_df = playlist_type_df.loc[['华语', '欧美', '日语', '韩语', '粤语'], :]
data = dict(zip(playlist_type_df.index.tolist(), playlist_type_df['play_count'].tolist()))
map_data = [{'name': name, 'value': value} for name, value in data.items()]
type_sum = {'t_s': map_data}
return json.dumps(type_sum, ensure_ascii=False)
def replace_str(x):
rep_list = ['省', '市', '维吾尔', '自治区', '壮族', '回族', '维吾尔族', '特别行政区']
for rep in rep_list:
x = re.sub(rep, '', x) # 利用正则表达式实现替换处理
return x
def add_province(df_data, province):
# 所有年份
years = df_data['create_time'].drop_duplicates().tolist()
for year in years:
# 每年的省份
new_province = df_data.loc[df_data['create_time'] == year, :]['province'].drop_duplicates().tolist()
# 缺失的省份 = 所有省份 - 每年的省份
rest_province = [x for x in province if x not in new_province]
# 对缺失的省份生成一个DataFrame,填充0值,并与原DataFrame合并
if len(rest_province):
rest_df = pd.DataFrame([[year, x, 0] for x in rest_province], columns=df_data.columns)
df_data = pd.concat([df_data, rest_df], ignore_index=True)
return df_data
"""动态地图"""
@app.route('/get_map_data')
def get_map_data():
time_df = df.groupby([df['create_time'].str[:4], df['province'].apply(replace_str)])
time_df = time_df['play_count'].count().reset_index()
re_time_df = time_df[time_df['province'] != '海外']
province = re_time_df['province'].drop_duplicates().tolist()
re_time_df2 = add_province(re_time_df, province)
final_time_df = re_time_df2.sort_values(by=['create_time', 'province']).reset_index(drop=True)
final_province = final_time_df['province'].drop_duplicates().tolist()
final_year = final_time_df['create_time'].drop_duplicates().tolist()
playlist_num = []
for year in final_year:
playlist_num.append(final_time_df.loc[final_time_df['create_time'] == year, 'play_count'].tolist())
playlist_data = {"year": final_year, "province": final_province, "playlist_num": playlist_num}
return json.dumps(playlist_data, ensure_ascii=False)
@app.route('/')
def index():
gender_df = df[['gender']].groupby(df['gender']).count()
gender_data = {'男': gender_df.loc['男', 'gender'], '女': gender_df.loc['女', 'gender']}
return render_template('index.html', gender_data=gender_data)
if __name__ == "__main__":
app.run()
源码获取:
🍅由于篇幅限制,获取完整文章或源码、代做项目的,查看我的【用户名】、【专栏名称】、【顶部选题链接】就可以找到我啦🍅
感兴趣的可以先收藏起来,点赞、关注不迷路,下方查看👇🏻获取联系方式👇🏻