自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 中国城市幸福指数数据分析

本分析框架将机器学习与传统统计相结合,既揭示了宏观规律,又支持微观决策,为幸福城市建设提供了数据驱动的解决方案。异常值修正:对房价收入比>20的值进行截断处理,这种方法适用于右偏分布的经济指标,能有效防止极端值对模型训练的干扰。缺失值填补:采用中位数填充数值变量,这是比均值更稳健的处理方式。箱线图分析:比较不同行政级别的幸福指数差异。负相关关系:PM2.5与幸福指数呈中度负相关(r≈-0.5),印证环境质量对主观幸福感的影响。数据预处理是数据分析的基础环节,本项目的预处理模块体现了数据清洗的核心逻辑。

2025-07-01 21:20:03 1060

原创 脱发预测模型

本报告基于脱发预测数据集进行专业分析,该数据集包含999个样本,12个原始特征和1个目标变量(脱发标记)。数据预处理是机器学习流程中至关重要的一环,本项目的预处理工作主要包括以下几个方面:​​:数据集中的"No Data"被统一替换为NA值,随后针对关键特征(脱发标记、医疗状况、药物及治疗、营养缺乏)进行了缺失值删除。这种处理方式虽然简单直接,但可能导致约19%的数据损失(原始999条减少至809条)。在医疗数据场景下,更优的做法可能是考虑使用多重插补或模型预测填充法,特别是对于医疗状况这类重要分类变量。

2025-06-26 16:27:10 846

原创 心脏病数据分析及分类

通过观察发现:心率、收缩压、舒张压存在极端异常值,虽然年龄、血糖、肌酸激酶同工酶、肌钙蛋白也存在离群点,但是这些离群点可能是真实反映,故不处理(急性心肌梗死情况下,肌酸激酶同工酶和肌钙蛋白会特别高),只处理那些极端异常值,删除心率大于1000的那个异常值点,删除收缩压小于50的那个点,删除舒张压大于140的那个点。模型预测:多种机器学习模型均能较好地区分心脏病患者与非患者,其中树模型(决策树、随机森林、XGBoost)表现优于逻辑回归和SVM,具有较高的预测准确性。

2025-06-20 13:06:51 867

原创 订单数据分析和聚类

一般的价值模型只有RFM,关于引入L的进一步含义:'客户生命周期’越长,说明客户与商家之间的关系越持久,一般意味着客户对产品或者商家较高的满意度和信任,且存在较高的复购概率。潜在客户:客户生命周期较短,最近光顾时间较久,可能代表他们已经有一段时间没有与品牌互动,虽然频繁光顾,但每次的消费金额较低,可能更多是购买低价商品。通过对不同生命周期客户群体的划分,更长周期的客户提供增值服务,较短周期的客户加强营销推广,能够进一步的优化营销策略,进而实现更大的商业价值。每次消费金额也较低,整体贡献的收入不高。

2025-06-13 13:49:18 905

原创 项目5.1

从数据反馈结果来看:Date列存在空缺值,并且不是日期类型。Patient_name列存在信息混合一起情况,需要拆分年龄和性别。

2025-06-06 13:52:23 345

原创 学习Python心得与体会

在项目实践的舞台上,我不可避免地遭遇了形形色色的问题与错误,但恰恰是这些看似恼人的挑战,如同一把把砥砺前行的磨刀石,促使我不断地查阅浩如烟海的资料、反复调试代码,进而全方位提高了自己解决问题的能力以及编程的精湛技巧。同时,在不断尝试新的编程思路与方法时,创造力也如泉涌般喷发,逐渐学会突破传统思维的束缚,以独特的视角和创新的方式解决编程挑战,这种在困境中破茧而出的成就感,成为了我持续前行的强大动力。丰富多元的库资源犹如装满奇珍异宝的仓库,无论是数据处理的精细活儿,还是网页抓取的技术活,皆能轻松驾驭。

2024-12-20 09:40:13 656

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除