自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 【大数据分析实战】4 种核心方法全覆盖:关联规则 + 分类 + 回归 + 聚类(附完整代码 + 结果可视化)

本文以4类真实数据为案例,完整实现关联规则、分类、线性回归、聚类4种数据分析核心方法,包含可运行代码、结果可视化及落地结论,是数据分析初学者的实战参考。

2026-01-05 10:48:56 691

原创 Hadoop 经典案例:WordCount 原理 + 代码逐段解析 + 实操全流程

本文详解Hadoop生态经典案例WordCount,从原理拆解、代码解析到集群实操,完整演示MapReduce实现单词计数的流程,涵盖Map拆分、Shuffle分组、Reduce聚合的核心逻辑,提供Hadoop3.x环境下的打包、提交、验证步骤,帮助掌握“分治-聚合”的分布式计算思想。

2025-12-31 09:38:36 748

原创 数据可视化分析

本文展示了几种常见数据可视化场景的代码实现:1) 月度温度降雨量双Y轴折线图,红色折线表示温度,蓝色柱状图显示降雨量;2) 商品销售占比环形图,内置百分比标签;3) 散点图分析数据分布,气泡大小反映数据强度;4) 青少年身高体重气泡图,用气泡大小和颜色区分年龄性别。所有图表遵循统一视觉规范,采用Tableau色系,支持交互式操作如悬停提示和区域缩放。可视化设计强调图表类型与场景匹配,通过双轴、环形、气泡等元素直观呈现数据关系,最终可集成到Dashboard实现多维度分析。

2025-10-29 17:35:49 620

原创 中国数据可视化多维度数据洞察

统一色彩体系,以深海蓝(#032d4f)为基底,搭配青蓝渐变(#00e9ff 至 #006d77)作为功能色,增强科技感与可读性。优化布局结构,将图表标题与说明文字整合为卡片式组件,添加 1px 白色边框与 8px 圆角,提升视觉层次感。补充页面加载动画,在图表初始化时显示 “数据加载中…” 过渡文本,搭配淡入效果,优化等待体验。

2025-10-29 11:00:37 401

原创 城市幸福指数可视化研究结果

这段代码聚焦城市幸福指数分析,先通过 corr 计算幸福指数与多指标相关性,再借随机森林算特征重要性,最终结合区域等总结幸福指数相关关键结论,用数据挖掘城市幸福影响因素与分布特点 。

2025-07-05 01:17:44 792

原创 d5.4 脱发因素分析

该数据集记录了可能导致脱发的多种因素,包括遗传、荷尔蒙变化、医疗状况、药物使用、营养缺乏等12个特征。研究目标包括建立脱发预测模型、分析各因素重要性、提出健康建议和预防策略。通过随机森林、XGBoost等算法进行建模分析,并采用预处理、特征编码等步骤优化数据质量。数据集中每行代表一个个体案例,最终预测目标为是否脱发(0/1二元分类)。

2025-06-30 11:25:25 600

原创 d5.4脱发因素

一、遗传因素对脱发的直接影响从分组统计结果看:有遗传史人群中,轻度脱发(等级 1)占比约__%、重度脱发(等级 2)占比约__%,整体脱发风险是无遗传史人群的__倍(需替换为实际运行数值);无遗传史人群脱发以 “无脱发(等级 0)” 为主,占比超__% 。结论:遗传是脱发的核心风险因素,有家族遗传史者需更早关注脱发预防。二、营养状况与遗传的协同作用按 “营养差 / 中 / 优” 分组后:遗传史 + 营养差组合,脱发率高达__%(远高于其他组合);即使有遗传史,若营养评分 “优”,脱发率可降低

2025-06-26 16:38:35 877

原创 心脏病数据分析及分类

plt.pie(gender_positive_counts,labels=['男','女'],autopct="%1.1f%%",startangle=75,colors=['#66b3ff','#ff9999'])plt.pie(gender_counts,labels=['男','女'],autopct="%1.1f%%",startangle=75,colors=['#66b3ff','#ff9999'])

2025-06-20 15:46:11 771

原创 心脏病数据分析及分析

本项目基于对心脏病发作数据集的系统分析,得出以下主要结论:人群特征:患者年龄分布广泛,平均年龄56.2岁,男性比例高于女性,且男性患心脏病的风险显著高于女性。\ 生理与生化指标:心脏病患者的肌酸激酶同工酶(CK-MB)和肌钙蛋白(Troponin)水平均显著高于未患病者,年龄也是影响心脏病的重要因素。心率、血压、血糖等常规生理指标在两组间差异不显著。模型预测:多种机器学习模型均能较好地区分心脏病患者与非患者,其中树模型(决策树、随机森林、XGBoost)表现优于逻辑回归和SVM,具有较高的预测准确性

2025-06-20 15:29:40 92

原创 d5.2任务

本文主要展示了Python数据分析环境的配置过程及电商订单数据的初步读取。首先通过pip安装pyecharts可视化库,随后导入pandas、numpy、matplotlib等常用数据分析库,并设置中文字体显示。过程中出现了warnings.filterwarnings的错误调用方式,应为函数调用而非下标访问。最后成功读取了包含订单编号、用户名、金额、付款时间等字段的电商订单数据集,为后续数据分析做好准备。

2025-06-12 16:39:27 1441

原创 python数据分析关于抑郁症研究代码

抑郁症患者数据分析摘要 该数据集包含8,400条抑郁症患者咨询记录,主要字段包括患者基本信息(姓名、性别、年龄)、咨询内容标签、日期、标题、交流次数、医生信息(姓名、医院、科室)等。数据分析显示:1)部分日期数据存在缺失;2)患者姓名列需要拆分出性别和年龄信息;3)数据预处理阶段已完成性别和年龄的拆分提取。该数据集可用于研究抑郁症患者的性别年龄分布、咨询频率、医生接诊情况等医疗数据分析。

2025-06-06 15:04:29 662

原创 python数据分析项目五的代码研究

文章摘要: 本文基于抑郁症患者数据(CSV文件),使用Pandas进行数据预处理,包括拆分年龄性别、处理空缺值和日期修改。通过Pyecharts可视化分析患者特征:性别比例、年龄分布、就诊次数和标签分布。使用Jieba分词和Counter统计词频,深入挖掘患者群体特征。可视化采用Pyecharts的多种图表类型,并引入ThemeType主题库优化展现效果。

2025-06-06 02:43:04 243

原创 Python学习心得

控制结构 1. 条件判断( if-elif-else ):类似于生活中的决策过程,根据不同的条件执行不同的代码块。

2024-12-20 10:51:14 856 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除