大数据毕业设计：音乐数据爬虫可视化系统网易云大数据+大屏（源码+论文）✅_基于python网易云音乐数据采集分析可视化系统+分析大屏论文-CSDN博客

本文链接：https://blog.csdn.net/vx_biyesheji0002/article/details/135036702

大数据毕业设计：Python电影数据采集分析可视化系统✅

🍅大家好，今天给大家分享一个Python项目，感兴趣的可以先收藏起来，点赞、关注不迷路!🍅

大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助同学们顺利毕业。

1、项目介绍

技术栈：
Python语言、Flask框架、requests爬虫、Echarts可视化、LayUI框架、HTML、网易云数据

（1）分析可视化模块：
分析可视化模块包括歌单中国地图、最受欢迎的歌单类型、歌单分享评论数变化、歌曲歌单数量范围、最受欢迎的歌单、歌单收藏量变化、语种类型歌单播放量等等。
（2）后台管理功能模块
后台管理功能模块包括歌曲歌单数据采集、用户管理、公告管理、歌单数据管理。

2、项目界面

（1）Echarts可视化大屏

在这里插入图片描述

（2）后台管理系统

在这里插入图片描述

（3）音乐数据管理

在这里插入图片描述

（4）用户数据管理

在这里插入图片描述

（5）注册登录界面

在这里插入图片描述

3、项目说明

时代在进步，科技在进步，互联网改变了世界，在互联网时代，各行各业的人们都在寻求增长点，人们的日常生活越来越离不开互联网。音乐成为了人们生活中不可或缺的一部分，而网易云音乐作为国内最受欢迎的音乐平台之一，积累了大量的用户和歌单数据。然而，在互联网信息和海量数据源混合的情况下，如何快速精确的找到自己想要的数据是一个值得探讨的问题。针对这些数据，本文将进行各种分析和挖掘，从而更好地理解用户需求和市场趋势。
本文就是基于这个背景而设计的，本系统以Python计算机设计语言为基础，使用 requests爬虫技术对音乐网站的音乐信息源进行抓取,针对网页信息编写抽取规则，对音乐数据进行必要的过滤和提取，使用MySql对音乐数据进行数据存储。最终使用 Python 开源Flask框架构建的数据服务接口实现数据的可视化展示和数据管理。

4、核心代码


from flask import Flask, render_template, url_for
import json
import pandas as pd
import pymysql
import re
import decimal
from flask import Flask as _Flask, flash
from flask import request, session
from flask.json import JSONEncoder as _JSONEncoder, jsonify
import service.users_data as user_service
import service.notice_data as notice_data
import service.music_data as music_service
import datetime

"""最受欢迎的歌单类型"""


@app.route('/get_hot_type')
def get_hot_type():
    hot_type_df = df[['type', 'play_count']].groupby(df['type']).sum().sort_values('play_count',
                                                                                   ascending=False).reset_index()
    hot_type_top7 = hot_type_df.head(7)
    playlist_type = hot_type_top7['type'].tolist()
    play_count = hot_type_top7['play_count'].tolist()

    return json.dumps({'playlist_type': playlist_type, 'play_count': play_count}, ensure_ascii=False)


"""最受欢迎的歌单"""


@app.route('/get_hot_playlist')
def get_hot_playlist():
    hot_playlist_df = df[['name', 'play_count']].sort_values('play_count', ascending=False).reset_index()
    hot_playlist_top5 = hot_playlist_df.head(5)
    playlist_name = hot_playlist_top5['name'].tolist()
    play_count = hot_playlist_top5['play_count'].tolist()
    return json.dumps({'playlist_name': playlist_name, 'play_count': play_count}, ensure_ascii=False)


"""歌单数据随月份变化"""


@app.route('/get_month_data')
def get_month_data():
    yearList = []

    # 获取当前日期和时间
    current_date = datetime.datetime.now()
    # 获取今年年份
    this_year = current_date.year
    # 获取去年年份
    last_year = this_year - 1
    for year in [last_year, this_year]:
        year = str(year)
        yearList.append({
            "year": year,
            "data": [
                df[df['create_time'].str[:4] == year].groupby(df['create_time'].str[5:7]).sum().reset_index()[
                    'share_count'].tolist(),
                df[df['create_time'].str[:4] == year].groupby(df['create_time'].str[5:7]).sum().reset_index()[
                    'comment_count'].tolist()
            ]
        })
    month = df[df['create_time'].str[:4] == str(this_year)].groupby(df['create_time'].str[5:7]).sum().reset_index()[
        'create_time'].tolist()
    yearData = {
        "yearData": yearList,
        "monthList": [str(int(x)) + '月' for x in month]
    }

    return json.dumps(yearData, ensure_ascii=False)


"""歌单数据随天数变化"""


@app.route('/get_day_data')
def get_day_data():
    non_vip_df = df[df['vip_type'] == '0'].groupby(df['create_time'].str[8:10]).sum().reset_index()[
        ['create_time', 'subscribed_count']]
    vip_df = \
        df[(df['vip_type'] == '10') | (df['vip_type'] == '11')].groupby(
            df['create_time'].str[8:10]).sum().reset_index()[
            ['create_time', 'subscribed_count']]
    vip_type_df = pd.merge(non_vip_df, vip_df, left_on='create_time', right_on='create_time', how='inner')

    sub_data = {
        "day": [str(int(x)) for x in vip_type_df["create_time"].tolist()],
        "vip": vip_type_df["subscribed_count_y"].tolist(),
        "nonvip": vip_type_df["subscribed_count_x"].tolist(),

    }

    return json.dumps(sub_data, ensure_ascii=False)


"""歌单歌曲数量分布"""


@app.route('/get_track_data')
def get_track_data():
    bins = [0, 50, 150, 500, 100000]
    cuts = pd.cut(df['tracks_num'], bins=bins, right=False, include_lowest=True)
    data_count = cuts.value_counts()
    data = dict(zip([str(x) for x in data_count.index.tolist()], data_count.tolist()))
    map_data = [{'name': name, 'value': value} for name, value in data.items()]
    track_value = {'t_v': map_data}

    return json.dumps(track_value, ensure_ascii=False)


"""语种类型歌单播放量"""


@app.route('/get_type_data')
def get_type_data():
    playlist_type_df = df[['type', 'play_count']].groupby(df['type']).sum()
    playlist_type_df = playlist_type_df.loc[['华语', '欧美', '日语', '韩语', '粤语'], :]
    data = dict(zip(playlist_type_df.index.tolist(), playlist_type_df['play_count'].tolist()))
    map_data = [{'name': name, 'value': value} for name, value in data.items()]
    type_sum = {'t_s': map_data}

    return json.dumps(type_sum, ensure_ascii=False)


def replace_str(x):
    rep_list = ['省', '市', '维吾尔', '自治区', '壮族', '回族', '维吾尔族', '特别行政区']
    for rep in rep_list:
        x = re.sub(rep, '', x)  # 利用正则表达式实现替换处理
    return x


def add_province(df_data, province):
    # 所有年份
    years = df_data['create_time'].drop_duplicates().tolist()
    for year in years:
        # 每年的省份
        new_province = df_data.loc[df_data['create_time'] == year, :]['province'].drop_duplicates().tolist()
        # 缺失的省份 = 所有省份 - 每年的省份
        rest_province = [x for x in province if x not in new_province]
        # 对缺失的省份生成一个DataFrame，填充0值，并与原DataFrame合并
        if len(rest_province):
            rest_df = pd.DataFrame([[year, x, 0] for x in rest_province], columns=df_data.columns)
            df_data = pd.concat([df_data, rest_df], ignore_index=True)

    return df_data


"""动态地图"""


@app.route('/get_map_data')
def get_map_data():
    time_df = df.groupby([df['create_time'].str[:4], df['province'].apply(replace_str)])
    time_df = time_df['play_count'].count().reset_index()
    re_time_df = time_df[time_df['province'] != '海外']
    province = re_time_df['province'].drop_duplicates().tolist()

    re_time_df2 = add_province(re_time_df, province)

    final_time_df = re_time_df2.sort_values(by=['create_time', 'province']).reset_index(drop=True)
    final_province = final_time_df['province'].drop_duplicates().tolist()
    final_year = final_time_df['create_time'].drop_duplicates().tolist()

    playlist_num = []
    for year in final_year:
        playlist_num.append(final_time_df.loc[final_time_df['create_time'] == year, 'play_count'].tolist())

    playlist_data = {"year": final_year, "province": final_province, "playlist_num": playlist_num}

    return json.dumps(playlist_data, ensure_ascii=False)


@app.route('/')
def index():
    gender_df = df[['gender']].groupby(df['gender']).count()
    gender_data = {'男': gender_df.loc['男', 'gender'], '女': gender_df.loc['女', 'gender']}

    return render_template('index.html', gender_data=gender_data)


if __name__ == "__main__":
    app.run()