- 博客(13)
- 收藏
- 关注
原创 【大数据分析实战】4 种核心方法全覆盖:关联规则 + 分类 + 回归 + 聚类(附完整代码 + 结果可视化)
本文以4类真实数据为案例,完整实现关联规则、分类、线性回归、聚类4种数据分析核心方法,包含可运行代码、结果可视化及落地结论,是数据分析初学者的实战参考。
2026-01-05 10:48:56
691
原创 Hadoop 经典案例:WordCount 原理 + 代码逐段解析 + 实操全流程
本文详解Hadoop生态经典案例WordCount,从原理拆解、代码解析到集群实操,完整演示MapReduce实现单词计数的流程,涵盖Map拆分、Shuffle分组、Reduce聚合的核心逻辑,提供Hadoop3.x环境下的打包、提交、验证步骤,帮助掌握“分治-聚合”的分布式计算思想。
2025-12-31 09:38:36
748
原创 数据可视化分析
本文展示了几种常见数据可视化场景的代码实现:1) 月度温度降雨量双Y轴折线图,红色折线表示温度,蓝色柱状图显示降雨量;2) 商品销售占比环形图,内置百分比标签;3) 散点图分析数据分布,气泡大小反映数据强度;4) 青少年身高体重气泡图,用气泡大小和颜色区分年龄性别。所有图表遵循统一视觉规范,采用Tableau色系,支持交互式操作如悬停提示和区域缩放。可视化设计强调图表类型与场景匹配,通过双轴、环形、气泡等元素直观呈现数据关系,最终可集成到Dashboard实现多维度分析。
2025-10-29 17:35:49
620
原创 中国数据可视化多维度数据洞察
统一色彩体系,以深海蓝(#032d4f)为基底,搭配青蓝渐变(#00e9ff 至 #006d77)作为功能色,增强科技感与可读性。优化布局结构,将图表标题与说明文字整合为卡片式组件,添加 1px 白色边框与 8px 圆角,提升视觉层次感。补充页面加载动画,在图表初始化时显示 “数据加载中…” 过渡文本,搭配淡入效果,优化等待体验。
2025-10-29 11:00:37
401
原创 城市幸福指数可视化研究结果
这段代码聚焦城市幸福指数分析,先通过 corr 计算幸福指数与多指标相关性,再借随机森林算特征重要性,最终结合区域等总结幸福指数相关关键结论,用数据挖掘城市幸福影响因素与分布特点 。
2025-07-05 01:17:44
792
原创 d5.4 脱发因素分析
该数据集记录了可能导致脱发的多种因素,包括遗传、荷尔蒙变化、医疗状况、药物使用、营养缺乏等12个特征。研究目标包括建立脱发预测模型、分析各因素重要性、提出健康建议和预防策略。通过随机森林、XGBoost等算法进行建模分析,并采用预处理、特征编码等步骤优化数据质量。数据集中每行代表一个个体案例,最终预测目标为是否脱发(0/1二元分类)。
2025-06-30 11:25:25
600
原创 d5.4脱发因素
一、遗传因素对脱发的直接影响从分组统计结果看:有遗传史人群中,轻度脱发(等级 1)占比约__%、重度脱发(等级 2)占比约__%,整体脱发风险是无遗传史人群的__倍(需替换为实际运行数值);无遗传史人群脱发以 “无脱发(等级 0)” 为主,占比超__% 。结论:遗传是脱发的核心风险因素,有家族遗传史者需更早关注脱发预防。二、营养状况与遗传的协同作用按 “营养差 / 中 / 优” 分组后:遗传史 + 营养差组合,脱发率高达__%(远高于其他组合);即使有遗传史,若营养评分 “优”,脱发率可降低
2025-06-26 16:38:35
877
原创 心脏病数据分析及分类
plt.pie(gender_positive_counts,labels=['男','女'],autopct="%1.1f%%",startangle=75,colors=['#66b3ff','#ff9999'])plt.pie(gender_counts,labels=['男','女'],autopct="%1.1f%%",startangle=75,colors=['#66b3ff','#ff9999'])
2025-06-20 15:46:11
771
原创 心脏病数据分析及分析
本项目基于对心脏病发作数据集的系统分析,得出以下主要结论:人群特征:患者年龄分布广泛,平均年龄56.2岁,男性比例高于女性,且男性患心脏病的风险显著高于女性。\ 生理与生化指标:心脏病患者的肌酸激酶同工酶(CK-MB)和肌钙蛋白(Troponin)水平均显著高于未患病者,年龄也是影响心脏病的重要因素。心率、血压、血糖等常规生理指标在两组间差异不显著。模型预测:多种机器学习模型均能较好地区分心脏病患者与非患者,其中树模型(决策树、随机森林、XGBoost)表现优于逻辑回归和SVM,具有较高的预测准确性
2025-06-20 15:29:40
92
原创 d5.2任务
本文主要展示了Python数据分析环境的配置过程及电商订单数据的初步读取。首先通过pip安装pyecharts可视化库,随后导入pandas、numpy、matplotlib等常用数据分析库,并设置中文字体显示。过程中出现了warnings.filterwarnings的错误调用方式,应为函数调用而非下标访问。最后成功读取了包含订单编号、用户名、金额、付款时间等字段的电商订单数据集,为后续数据分析做好准备。
2025-06-12 16:39:27
1441
原创 python数据分析关于抑郁症研究代码
抑郁症患者数据分析摘要 该数据集包含8,400条抑郁症患者咨询记录,主要字段包括患者基本信息(姓名、性别、年龄)、咨询内容标签、日期、标题、交流次数、医生信息(姓名、医院、科室)等。数据分析显示:1)部分日期数据存在缺失;2)患者姓名列需要拆分出性别和年龄信息;3)数据预处理阶段已完成性别和年龄的拆分提取。该数据集可用于研究抑郁症患者的性别年龄分布、咨询频率、医生接诊情况等医疗数据分析。
2025-06-06 15:04:29
662
原创 python数据分析项目五的代码研究
文章摘要: 本文基于抑郁症患者数据(CSV文件),使用Pandas进行数据预处理,包括拆分年龄性别、处理空缺值和日期修改。通过Pyecharts可视化分析患者特征:性别比例、年龄分布、就诊次数和标签分布。使用Jieba分词和Counter统计词频,深入挖掘患者群体特征。可视化采用Pyecharts的多种图表类型,并引入ThemeType主题库优化展现效果。
2025-06-06 02:43:04
243
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1