自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 浅试Ecommerce数据集(Kaggle)的AB Testing

本文基于电商 A/B 测试数据集,聚焦新旧落地页转化效果对比。先清洗合并用户访问数据以保障质量,经描述性统计得整体转化率约 12%,两组样本量均衡。双样本比例 Z 检验显示两组无显著差异,效应量 Cohen's d 仅 0.0046,新页面未达提升预期。研究建议维持旧版本,完整呈现 A/B 测试全流程,为电商数据驱动优化提供范例。

2025-10-26 00:56:11 485

原创 加州房价(California Housing Prices)数据集(三)—— sklearn数据集房价预测(xgboost)

本文基于sklearn数据库中的加州房价数据集,采用XGBoost回归模型进行房价预测分析。经随机搜索调参后,模型取得优异表现,可视化验证表明预测值与真实值高度吻合,残差分布随机,模型在房价上限处略有集中预测现象。

2025-09-30 23:19:31 1152

原创 加州房价(California Housing Prices)数据集(二)—— kaggle数据集房价预测(xgboost)

本文基于加州房价数据集,用XGBoost构建房价预测模型。通过特征工程构造人均房间数等指标,结合网格搜索优化参数。结果显示,内陆区位、收入水平、居住空间是房价核心影响因素,模型能有效捕捉房价地理溢价与收入非线性影响,为预测及决策提供可靠依据。

2025-09-30 19:56:35 1385

原创 加州房价(California Housing Prices)数据集(一)———— 数据集的预处理

本文对加州房价数据集进行了系统分析,包括数据介绍、探索性分析和相关性分析

2025-09-27 23:59:12 1649

原创 Iris鸢尾花数据集分类(三)——LightGBM

本文介绍了LightGBM(轻量级梯度提升机)的基本使用流程,包括安装方法、数据准备、模型建立和评估等关键步骤。以鸢尾花数据集为例,详细展示了如何设置模型参数、训练模型、分析特征重要性和评估模型性能,为初学者提供实践参考。

2025-09-26 07:00:00 868

原创 Iris鸢尾花数据集分类(二)—— 决策树

本文介绍了决策树模型在鸢尾花分类任务中的应用。随后构建了DecisionTreeClassifier模型,分别采用文本和图形方式展示决策树逻辑。模型评估显示分类准确率达到100%,混淆矩阵和分类报告均证实模型在所有类别上表现完美。

2025-09-25 17:58:12 797

原创 Iris鸢尾花数据集分类(一):支持向量机模型

本文介绍了使用支持向量机(SVM)对鸢尾花数据集进行分类分析的过程。首先加载经典的鸢尾花数据集,包含150个样本和4个特征。通过SVC(kernel='linear')和LinearSVC两种线性核SVM模型进行分类,结果显示前者准确率达98%,后者为96%,均表现良好。

2025-09-24 23:24:23 1375

原创 Scorecardpy的应用(筛选优质客户)

本文介绍了使用scorecardpy库构建信用评分系统的完整流程。首先通过德国信用数据集演示了数据加载、特征筛选(基于IV值)和WOE分箱处理。然后建立逻辑回归模型,并详细分析了模型性能指标(KS=0.5625,AUC=0.8468)。最后生成了可解释的评分卡,对特征影响力和业务合理性进行了分析。整个流程展现了如何将机器学习模型转化为业务可理解的评分系统,为信贷风险评估提供技术支持。

2025-09-24 07:00:00 1421

原创 Credit Risk Dataset(Kaggle)信贷违约预测模型(Logistic Regression、Random Forest)

本文基于信贷风险数据集(CreditRiskDataset)开展贷款违约预测分析:先清洗数据(修正异常值、填充缺失值),可视化发现借款人 20-30 岁占 71.8%、中等收入(50k-100k)占 45.1%、租房(50.5%)和按揭(41.3%)为主;相关性分析显示贷款等级与利率、年龄与信用历史长度强相关。构建逻辑回归与随机森林模型,交叉验证平均准确率均 77.58%,但随机森林 AUC(0.9202)优于逻辑回归(0.8549),为信贷风险评估提供有效建模方法。

2025-09-18 22:14:33 1401

原创 yfinance财务报表的数据分析

综合来看,公司财务稳健,盈利能力和现金流均具支撑,自由现金流回升增强了投资与分红能力;负债虽高但利息保障充足,长期偿债风险低;估值已回归合理区间,反映市场对基本面的认可。整体而言,公司财务结构健康,稳健性强,具备持续成长与长期可持续发展的潜力。总结本文选取部分关键指标进行计算与分析,旨在展示分析方法的基本应用,不构成绝对性建议或方案。具体结论需结合更多指标和实际情况进行补充与判断。

2025-09-01 17:17:11 1211

原创 yfinance 数据基本面分析(Python)

本文介绍用 Python 的 yfinance 库获取、分析股票数据,以苹果(AAPL)为例,示安装使用及历史价格、基本面信息提取,计算均线等指标可视化分析其 5 年走势,发现中长期升势稳、短期震荡,为金融分析提供实用框架,未涉财报深入分析。

2025-08-24 18:12:02 1128

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除