【大数据】中风患者数据可视化分析系统计算机毕业设计项目 Hadoop+Spark环境配置数据科学与大数据技术附源码+文档+讲解

原创于 2025-10-09 12:54:18 发布 · 544 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #信息可视化 #课程设计 #数据分析 #hadoop #spark #python

大数据实战项目专栏收录该内容

95 篇文章

订阅专栏

一、个人简介

💖💖作者：计算机编程果茶熊
💙💙个人简介：曾长期从事计算机专业培训教学，担任过编程老师，同时本人也热爱上课教学，擅长Java、微信小程序、Python、Golang、安卓Android等多个IT方向。会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。平常喜欢分享一些自己开发中遇到的问题的解决办法，也喜欢交流技术，大家有技术代码这一块的问题可以问我！
💛💛想说的话：感谢大家的关注与支持！
💜💜
网站实战项目
 安卓/小程序实战项目
 大数据实战项目
 计算机毕业设计选题
💕💕文末获取源码联系计算机编程果茶熊

二、系统介绍

大数据框架：Hadoop+Spark（Hive需要定制修改）
开发语言：Java+Python（两个版本都支持）
数据库：MySQL
后端框架：SpringBoot(Spring+SpringMVC+Mybatis)+Django（两个版本都支持）
前端：Vue+Echarts+HTML+CSS+JavaScript+jQuery

中风患者数据可视化分析系统是一个基于大数据技术的医疗数据分析平台，采用Hadoop+Spark分布式计算框架作为核心引擎，结合Python生态的Pandas、NumPy等数据处理库，构建了完整的中风患者数据分析体系。系统以Django作为后端框架，Vue+ElementUI+Echarts作为前端技术栈，实现了从数据存储、处理到可视化展示的全链路解决方案。平台核心功能涵盖中风患者数据管理、高风险特征组合画像分析、多维度交叉与深度钻取分析、患者群体基础画像分析、中风核心风险因素关联分析、核心健康指标与既往病史分析以及可视化大屏展示等模块。通过HDFS分布式文件系统存储海量患者数据，利用Spark SQL进行复杂的数据查询和统计分析，结合MySQL数据库管理结构化信息，为医疗机构提供了一个集数据管理、分析挖掘、可视化展示于一体的智能化分析工具，有助于提升中风疾病的预防、诊断和治疗水平。

三、视频解说

【大数据】中风患者数据可视化分析系统计算机毕业设计项目 Hadoop+Spark环境配置数据科学与大数据技术附源码+文档+讲解

四、部分功能展示

在这里插入图片描述

五、部分代码展示


from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from django.http import JsonResponse
import pandas as pd
import numpy as np
from django.views.decorators.csrf import csrf_exempt
import json

spark = SparkSession.builder.appName("StrokeAnalysis").config("spark.sql.adaptive.enabled", "true").getOrCreate()

@csrf_exempt
def high_risk_feature_analysis(request):
    stroke_df = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/stroke_db").option("dbtable", "patient_data").option("user", "root").option("password", "password").load()
    age_risk = stroke_df.filter(col("age") > 65).groupBy("age_group").agg(count("*").alias("count"), avg("stroke_risk_score").alias("avg_risk"))
    hypertension_stroke = stroke_df.filter((col("hypertension") == 1) & (col("stroke") == 1)).count()
    total_hypertension = stroke_df.filter(col("hypertension") == 1).count()
    hypertension_risk_rate = hypertension_stroke / total_hypertension if total_hypertension > 0 else 0
    diabetes_stroke_corr = stroke_df.select(corr("diabetes", "stroke").alias("correlation")).collect()[0]["correlation"]
    smoking_risk_analysis = stroke_df.groupBy("smoking_status").agg(avg("stroke_risk_score").alias("avg_risk"), count("*").alias("patient_count"))
    bmi_risk_groups = stroke_df.withColumn("bmi_category", when(col("bmi") < 18.5, "underweight").when(col("bmi") < 25, "normal").when(col("bmi") < 30, "overweight").otherwise("obese"))
    bmi_stroke_analysis = bmi_risk_groups.groupBy("bmi_category").agg(avg("stroke").alias("stroke_rate"), count("*").alias("total_patients"))
    combined_risk_features = stroke_df.filter((col("age") > 60) & (col("hypertension") == 1) & (col("diabetes") == 1))
    high_risk_combination_rate = combined_risk_features.filter(col("stroke") == 1).count() / combined_risk_features.count() if combined_risk_features.count() > 0 else 0
    gender_age_risk = stroke_df.groupBy("gender", "age_group").agg(avg("stroke").alias("stroke_rate"), count("*").alias("patient_count"))
    work_type_analysis = stroke_df.groupBy("work_type").agg(avg("stroke_risk_score").alias("avg_risk"), stddev("stroke_risk_score").alias("risk_std"))
    residence_risk = stroke_df.groupBy("residence_type").agg(avg("stroke").alias("stroke_rate"), count("*").alias("population"))
    feature_importance_scores = stroke_df.select("age", "hypertension", "diabetes", "smoking_status", "bmi", "stroke").toPandas()
    correlation_matrix = feature_importance_scores.corr()["stroke"].sort_values(ascending=False)
    risk_score_distribution = stroke_df.select("stroke_risk_score").rdd.map(lambda row: row[0]).histogram(10)
    high_risk_threshold = stroke_df.approxQuantile("stroke_risk_score", [0.8], 0.01)[0]
    high_risk_patients = stroke_df.filter(col("stroke_risk_score") > high_risk_threshold)
    result_data = {"hypertension_risk_rate": hypertension_risk_rate, "diabetes_correlation": diabetes_stroke_corr, "high_risk_combination_rate": high_risk_combination_rate, "risk_threshold": high_risk_threshold, "correlation_features": correlation_matrix.to_dict()}
    return JsonResponse(result_data)

@csrf_exempt
def multidimensional_analysis(request):
    patient_df = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/stroke_db").option("dbtable", "patient_data").option("user", "root").option("password", "password").load()
    dimension_filters = json.loads(request.body).get("filters", {})
    filtered_df = patient_df
    if "age_range" in dimension_filters:
        age_min, age_max = dimension_filters["age_range"]
        filtered_df = filtered_df.filter((col("age") >= age_min) & (col("age") <= age_max))
    if "gender" in dimension_filters:
        filtered_df = filtered_df.filter(col("gender").isin(dimension_filters["gender"]))
    if "work_type" in dimension_filters:
        filtered_df = filtered_df.filter(col("work_type").isin(dimension_filters["work_type"]))
    cross_analysis_result = filtered_df.groupBy("gender", "age_group", "work_type").agg(count("*").alias("patient_count"), avg("stroke").alias("stroke_rate"), avg("bmi").alias("avg_bmi"), avg("glucose_level").alias("avg_glucose"))
    drill_down_by_age = filtered_df.withColumn("age_decade", floor(col("age") / 10) * 10).groupBy("age_decade").agg(count("*").alias("count"), avg("stroke").alias("stroke_rate"), avg("heart_disease").alias("heart_disease_rate"))
    geographic_analysis = filtered_df.groupBy("residence_type", "region").agg(count("*").alias("population"), avg("stroke").alias("stroke_rate"), avg("bmi").alias("avg_bmi"))
    temporal_analysis = filtered_df.withColumn("diagnosis_year", year(col("diagnosis_date"))).groupBy("diagnosis_year").agg(count("*").alias("cases"), avg("stroke_risk_score").alias("avg_risk"))
    comorbidity_analysis = filtered_df.groupBy("hypertension", "diabetes", "heart_disease").agg(count("*").alias("patient_count"), avg("stroke").alias("stroke_rate"))
    lifestyle_analysis = filtered_df.groupBy("smoking_status", "ever_married").agg(count("*").alias("count"), avg("stroke").alias("stroke_rate"), avg("bmi").alias("avg_bmi"))
    risk_stratification = filtered_df.withColumn("risk_level", when(col("stroke_risk_score") < 0.3, "low").when(col("stroke_risk_score") < 0.7, "medium").otherwise("high"))
    stratified_analysis = risk_stratification.groupBy("risk_level", "gender").agg(count("*").alias("patient_count"), avg("age").alias("avg_age"))
    outcome_analysis = filtered_df.filter(col("stroke") == 1).groupBy("treatment_type").agg(count("*").alias("stroke_cases"), avg("recovery_score").alias("avg_recovery"))
    medication_analysis = filtered_df.groupBy("medication_history").agg(count("*").alias("patient_count"), avg("stroke").alias("stroke_rate"))
    pandas_result = cross_analysis_result.toPandas()
    pivot_table = pandas_result.pivot_table(values="stroke_rate", index="gender", columns="work_type", aggfunc="mean")
    correlation_analysis = filtered_df.select("age", "bmi", "glucose_level", "stroke_risk_score").toPandas().corr()
    analysis_results = {"cross_analysis": cross_analysis_result.collect(), "drill_down": drill_down_by_age.collect(), "geographic": geographic_analysis.collect(), "temporal": temporal_analysis.collect(), "pivot_data": pivot_table.to_dict(), "correlations": correlation_analysis.to_dict()}
    return JsonResponse(analysis_results, safe=False)

@csrf_exempt
def patient_group_portrait_analysis(request):
    patient_data = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/stroke_db").option("dbtable", "patient_data").option("user", "root").option("password", "password").load()
    demographic_profile = patient_data.groupBy("gender").agg(count("*").alias("total_count"), avg("age").alias("avg_age"), stddev("age").alias("age_std"), min("age").alias("min_age"), max("age").alias("max_age"))
    age_distribution = patient_data.withColumn("age_group", when(col("age") < 30, "18-29").when(col("age") < 50, "30-49").when(col("age") < 70, "50-69").otherwise("70+")).groupBy("age_group").agg(count("*").alias("count"), avg("stroke").alias("stroke_rate"))
    health_indicators = patient_data.groupBy("gender").agg(avg("bmi").alias("avg_bmi"), avg("glucose_level").alias("avg_glucose"), avg("heart_rate").alias("avg_heart_rate"), stddev("bmi").alias("bmi_variance"))
    lifestyle_patterns = patient_data.groupBy("smoking_status", "ever_married").agg(count("*").alias("group_count"), avg("stroke").alias("stroke_rate"), avg("bmi").alias("avg_bmi"))
    occupation_analysis = patient_data.groupBy("work_type").agg(count("*").alias("worker_count"), avg("stroke").alias("occupation_stroke_rate"), avg("glucose_level").alias("avg_glucose"))
    residence_patterns = patient_data.groupBy("residence_type").agg(count("*").alias("residence_count"), avg("stroke").alias("residence_stroke_rate"), avg("age").alias("avg_resident_age"))
    comorbidity_patterns = patient_data.groupBy("hypertension", "diabetes", "heart_disease").agg(count("*").alias("comorbidity_count"), avg("stroke").alias("comorbidity_stroke_rate"))
    risk_score_analysis = patient_data.select("stroke_risk_score").describe()
    cluster_analysis = patient_data.select("age", "bmi", "glucose_level").toPandas()
    from sklearn.cluster import KMeans
    kmeans = KMeans(n_clusters=4, random_state=42)
    cluster_labels = kmeans.fit_predict(cluster_analysis)
    cluster_analysis["cluster"] = cluster_labels
    cluster_summary = cluster_analysis.groupby("cluster").agg({"age": ["mean", "std"], "bmi": ["mean", "std"], "glucose_level": ["mean", "std"]})
    behavioral_analysis = patient_data.withColumn("high_risk_behavior", when((col("smoking_status") == "smokes") | (col("bmi") > 30), 1).otherwise(0))
    behavior_stroke_correlation = behavioral_analysis.groupBy("high_risk_behavior").agg(count("*").alias("behavior_count"), avg("stroke").alias("behavior_stroke_rate"))
    medication_usage = patient_data.filter(col("medication_history").isNotNull()).groupBy("medication_type").agg(count("*").alias("usage_count"), avg("stroke").alias("medication_stroke_rate"))
    seasonal_patterns = patient_data.withColumn("diagnosis_month", month(col("diagnosis_date"))).groupBy("diagnosis_month").agg(count("*").alias("monthly_cases"), avg("stroke_risk_score").alias("monthly_avg_risk"))
    portrait_results = {"demographic": demographic_profile.collect(), "age_groups": age_distribution.collect(), "health_metrics": health_indicators.collect(), "lifestyle": lifestyle_patterns.collect(), "occupation": occupation_analysis.collect(), "residence": residence_patterns.collect(), "clusters": cluster_summary.to_dict(), "behavior_risk": behavior_stroke_correlation.collect()}
    return JsonResponse(portrait_results, safe=False)