- 博客(6)
- 收藏
- 关注
原创 中国城市幸福指数数据分析
本分析框架将机器学习与传统统计相结合,既揭示了宏观规律,又支持微观决策,为幸福城市建设提供了数据驱动的解决方案。异常值修正:对房价收入比>20的值进行截断处理,这种方法适用于右偏分布的经济指标,能有效防止极端值对模型训练的干扰。缺失值填补:采用中位数填充数值变量,这是比均值更稳健的处理方式。箱线图分析:比较不同行政级别的幸福指数差异。负相关关系:PM2.5与幸福指数呈中度负相关(r≈-0.5),印证环境质量对主观幸福感的影响。数据预处理是数据分析的基础环节,本项目的预处理模块体现了数据清洗的核心逻辑。
2025-07-01 21:20:03
1060
原创 脱发预测模型
本报告基于脱发预测数据集进行专业分析,该数据集包含999个样本,12个原始特征和1个目标变量(脱发标记)。数据预处理是机器学习流程中至关重要的一环,本项目的预处理工作主要包括以下几个方面::数据集中的"No Data"被统一替换为NA值,随后针对关键特征(脱发标记、医疗状况、药物及治疗、营养缺乏)进行了缺失值删除。这种处理方式虽然简单直接,但可能导致约19%的数据损失(原始999条减少至809条)。在医疗数据场景下,更优的做法可能是考虑使用多重插补或模型预测填充法,特别是对于医疗状况这类重要分类变量。
2025-06-26 16:27:10
846
原创 心脏病数据分析及分类
通过观察发现:心率、收缩压、舒张压存在极端异常值,虽然年龄、血糖、肌酸激酶同工酶、肌钙蛋白也存在离群点,但是这些离群点可能是真实反映,故不处理(急性心肌梗死情况下,肌酸激酶同工酶和肌钙蛋白会特别高),只处理那些极端异常值,删除心率大于1000的那个异常值点,删除收缩压小于50的那个点,删除舒张压大于140的那个点。模型预测:多种机器学习模型均能较好地区分心脏病患者与非患者,其中树模型(决策树、随机森林、XGBoost)表现优于逻辑回归和SVM,具有较高的预测准确性。
2025-06-20 13:06:51
867
原创 订单数据分析和聚类
一般的价值模型只有RFM,关于引入L的进一步含义:'客户生命周期’越长,说明客户与商家之间的关系越持久,一般意味着客户对产品或者商家较高的满意度和信任,且存在较高的复购概率。潜在客户:客户生命周期较短,最近光顾时间较久,可能代表他们已经有一段时间没有与品牌互动,虽然频繁光顾,但每次的消费金额较低,可能更多是购买低价商品。通过对不同生命周期客户群体的划分,更长周期的客户提供增值服务,较短周期的客户加强营销推广,能够进一步的优化营销策略,进而实现更大的商业价值。每次消费金额也较低,整体贡献的收入不高。
2025-06-13 13:49:18
905
原创 学习Python心得与体会
在项目实践的舞台上,我不可避免地遭遇了形形色色的问题与错误,但恰恰是这些看似恼人的挑战,如同一把把砥砺前行的磨刀石,促使我不断地查阅浩如烟海的资料、反复调试代码,进而全方位提高了自己解决问题的能力以及编程的精湛技巧。同时,在不断尝试新的编程思路与方法时,创造力也如泉涌般喷发,逐渐学会突破传统思维的束缚,以独特的视角和创新的方式解决编程挑战,这种在困境中破茧而出的成就感,成为了我持续前行的强大动力。丰富多元的库资源犹如装满奇珍异宝的仓库,无论是数据处理的精细活儿,还是网页抓取的技术活,皆能轻松驾驭。
2024-12-20 09:40:13
656
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人