自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 贷款违约预测-01数据探索性分析

数据探索性分析导入库和数据数据探索性分析查看正负样本占比查看缺失值占比验证数个匿名特征的缺失值是否存于在相同的样本当中特征相关性分析匿名特征相关性分析非匿名特征之间的相关性分析查看离散型特征的分布情况grade&subgradepurposeregionCodeinitialListStatus总结需要删除的特征WOE编码特征映射填补策略导入库和数据import warningswarnings.filterwarnings(action='ignore')import pandas as

2021-07-13 20:50:11 871

原创 关联分析——基于h-confidence剪枝的Apriori算法

基于h-confidence剪枝的Apriori算法摘要倾斜支持度分布为何支持度和置信度失效如何解决Python实现生成候选1-项集并计算候选1-项集的支持度计数基于全置信度剪枝生成候选2-项集封装测试支持度剪枝h-confidence剪枝摘要当数据集存在倾斜支持度分布时,基于支持度剪枝的Apriori算法无法很好的提取频繁项集,这时需要根据h-confidence进行剪枝。倾斜支持度分布一个倾斜支持度分布的例子:基于支持度剪枝会产出如下问题:设定过高的支持度阈值会忽略掉一些有趣的规则;设定

2021-07-13 14:43:05 885

原创 关联分析——频繁项集的产生之Apriori算法

关联分析——频繁项集的产生之Apriori算法频繁项集的产生—Apriori算法Apriori算法的Python实现提取1-项集提取频繁k-项集生成候选k-项集Apriori算法封装频繁项集的产生—Apriori算法Apriori算法用于从数据集中提取频繁项集,以购物篮事务为例说明其过程:提取频繁项集的过程如下:Apriori算法的伪码如下:Apriori算法的Python实现给出数据集:data = [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5

2021-07-13 10:15:50 5328 1

原创 股票价格形态聚类

股票价格形态聚类背景介绍特征工程关键价格点特征映射对聚类效果的可视化分析量化策略构建主代码策略代码策略回测结果总结背景介绍投资者通过实战经验,总结出了各种各样的股票价格走势形态以辅助投资决策。比如常见的头肩形、倒头肩形、三重顶、三重底、M头、W底等。然而投资者的经验是有限的,特别是新进股市的投资者。进一步地,常用的股票形态已经为广大投资者熟知,一定程度上降低了这些形态的有效性。同时,一些新的形态或许隐藏在其中而没有被发现。本策略通过提取价格形态特征,采用聚类分析的方法,对其形态特征数据进行自动聚类分

2021-07-03 11:41:13 4675 5

原创 PSI的模拟计算——01数据准备

PSI的模拟计算——数据准备数据来源PSI指标的计算数据处理思路划分思路执行脚本(Python)数据来源本次用于PSI模拟计算的数据来自于天池零基础入门金融风控-贷款违约预测使用其中的train.csv数据集,个字段的含义见原网页地址。PSI指标的计算有关PSI指标是如何计算的请见风控模型—群体稳定性指标(PSI)深入理解应用数据处理思路在理解了如何计算PSI指标后,那么对train.csv的处理可大致划分为用于训练模型的开发样本和用于计算PSI指标的月度进件数据。划分思路原始数据中给出了

2021-06-07 14:42:15 594

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除