大数据技术1班袁春美-CSDN博客

原创中国城市幸福指数数据分析

本分析框架将机器学习与传统统计相结合，既揭示了宏观规律，又支持微观决策，为幸福城市建设提供了数据驱动的解决方案。异常值修正：对房价收入比>20的值进行截断处理，这种方法适用于右偏分布的经济指标，能有效防止极端值对模型训练的干扰。缺失值填补：采用中位数填充数值变量，这是比均值更稳健的处理方式。箱线图分析：比较不同行政级别的幸福指数差异。负相关关系：PM2.5与幸福指数呈中度负相关（r≈-0.5），印证环境质量对主观幸福感的影响。数据预处理是数据分析的基础环节，本项目的预处理模块体现了数据清洗的核心逻辑。

2025-07-01 21:20:03 1060

原创脱发预测模型

本报告基于脱发预测数据集进行专业分析，该数据集包含999个样本，12个原始特征和1个目标变量（脱发标记）。数据预处理是机器学习流程中至关重要的一环，本项目的预处理工作主要包括以下几个方面：：数据集中的"No Data"被统一替换为NA值，随后针对关键特征（脱发标记、医疗状况、药物及治疗、营养缺乏）进行了缺失值删除。这种处理方式虽然简单直接，但可能导致约19%的数据损失（原始999条减少至809条）。在医疗数据场景下，更优的做法可能是考虑使用多重插补或模型预测填充法，特别是对于医疗状况这类重要分类变量。

2025-06-26 16:27:10 846

原创心脏病数据分析及分类

通过观察发现：心率、收缩压、舒张压存在极端异常值，虽然年龄、血糖、肌酸激酶同工酶、肌钙蛋白也存在离群点，但是这些离群点可能是真实反映，故不处理（急性心肌梗死情况下，肌酸激酶同工酶和肌钙蛋白会特别高），只处理那些极端异常值，删除心率大于1000的那个异常值点，删除收缩压小于50的那个点，删除舒张压大于140的那个点。模型预测：多种机器学习模型均能较好地区分心脏病患者与非患者，其中树模型（决策树、随机森林、XGBoost）表现优于逻辑回归和SVM，具有较高的预测准确性。

2025-06-20 13:06:51 867

原创订单数据分析和聚类

一般的价值模型只有RFM，关于引入L的进一步含义:'客户生命周期’越长，说明客户与商家之间的关系越持久，一般意味着客户对产品或者商家较高的满意度和信任，且存在较高的复购概率。潜在客户：客户生命周期较短，最近光顾时间较久，可能代表他们已经有一段时间没有与品牌互动，虽然频繁光顾，但每次的消费金额较低，可能更多是购买低价商品。通过对不同生命周期客户群体的划分，更长周期的客户提供增值服务，较短周期的客户加强营销推广，能够进一步的优化营销策略，进而实现更大的商业价值。每次消费金额也较低，整体贡献的收入不高。

2025-06-13 13:49:18 905

原创项目5.1

从数据反馈结果来看：Date列存在空缺值，并且不是日期类型。Patient_name列存在信息混合一起情况，需要拆分年龄和性别。

2025-06-06 13:52:23 345

原创学习Python心得与体会

在项目实践的舞台上，我不可避免地遭遇了形形色色的问题与错误，但恰恰是这些看似恼人的挑战，如同一把把砥砺前行的磨刀石，促使我不断地查阅浩如烟海的资料、反复调试代码，进而全方位提高了自己解决问题的能力以及编程的精湛技巧。同时，在不断尝试新的编程思路与方法时，创造力也如泉涌般喷发，逐渐学会突破传统思维的束缚，以独特的视角和创新的方式解决编程挑战，这种在困境中破茧而出的成就感，成为了我持续前行的强大动力。丰富多元的库资源犹如装满奇珍异宝的仓库，无论是数据处理的精细活儿，还是网页抓取的技术活，皆能轻松驾驭。

2024-12-20 09:40:13 656

fiifi的博客

原创中国城市幸福指数数据分析

原创脱发预测模型

原创心脏病数据分析及分类

原创订单数据分析和聚类

原创项目5.1

原创学习Python心得与体会

空空如也

空空如也

原创 中国城市幸福指数数据分析

原创 脱发预测模型

原创 心脏病数据分析及分类

原创 订单数据分析和聚类

原创 项目5.1

原创 学习Python心得与体会

空空如也

空空如也

原创中国城市幸福指数数据分析

原创脱发预测模型

原创心脏病数据分析及分类

原创订单数据分析和聚类

原创项目5.1

原创学习Python心得与体会