数据分析记录

记录数据分析套路

1、数据清洗

  • one hot:用于离散变量
    
  • 卡方分箱+WOE编码:用于连续特征 https://zhuanlan.zhihu.com/p/146476834 
    

卡方分箱+WOE编码
–“可以把非线性的特征转化为线性”.例如在风控场景里,我们可能用到客户的年龄做特征。我们知道肯定不是年龄越大风险越高,或者年龄越大风险越低,一定是有个年龄段的风险是比其他年龄段高些。
在这里插入图片描述

  • z-normalize: 用于连续变量
    
  • min-max normalized:用于连续变量
    
  • 二值化:用于连续变量(连续变量分组,转化为分类变量0/1)
    
  • 根据年龄分组进行z-normalize: 
    当大多数变量与年龄相关,当变量直方图一坨一坨分开不连续,,用于连续变量
    eg:x1属于Agegroup6,x1->(x1-mean(xi,xi属于Agegroup6))/std(xi,xi属于Agegroup6)
    记得连续变量按年龄分组z-normalize后,“年龄变量”需要min-max normalized,分类变量全部二值化
    
  • 分箱  
    

分箱:
等距分箱、等频分箱、卡方分箱、最小熵分箱:https://cloud.tencent.com/developer/article/1388206
KS分箱:https://blog.csdn.net/hxcaifly/article/details/84593770
其他:(看注释)缺失与分箱:https://blog.csdn.net/happy5205205/article/details/95062467;代码:https://zhuanlan.zhihu.com/p/355796708

树分箱:https://blog.csdn.net/fulk6667g78o8/article/details/120318104

卡方分箱、树分箱是有监督的。训练集分箱完会获得特征相邻连续的几个区间以及区间的上下限,即每个箱子不重合,箱子的上下限可直接用于测试集特征分箱

2、特征选择

  • 根据缺失筛选变量(注意变量相关性和样本量之间的平衡,当某关键变量缺失过多,可以通过丢弃样本尽量保留变量)

  • 根据统计分析筛选变量

    引用 early Recognition of Burn- and trauma-Related Acute Kidney injury: A pilot comparison of Machine Learning techniques

The Shapiro-Wilkes test and histogram analysis were used to determine normality.
.
Continuous normally distributed variables were compared using means (standard deviation[SD]) using the 2-sample t-test, while discrete variables were compared using the non-parametric Chi-square test.Non-parametric continuous data compared using medians (interquartile range [IQR]), when appropriate, were analyzed using the Mann-Whitney U test. categorical variables were represented by frequency(%)
.
Multivariate logistic regression was used to determine predictors of AKI with age and burn size serving as covariates. Repeated measures analysis of variance was used for time series data.
线性回归中F检验、参数t检验、R^2的相关定义(注意Logistic回归对于自变量因变量分布没有要求,而线性回归有较多对于自变量因变量分布的要求):
https://zhuanlan.zhihu.com/p/48541799?ivk_sa=1024320u
https://www.cnblogs.com/wqbin/p/11109650.html
https://zhuanlan.zhihu.com/p/176688072
https://blog.csdn.net/Noob_daniel/article/details/76087829
在这里插入图片描述
.
A p-value<0.05 was considered statistically significant with receiver operator characteristic (ROC) analysis also performed to compare AKI biomarker performance

  • 根据机器学习方法筛选变量

    引用 Using data mining techniques for multi-diseases prediction modeling of hypertension and hyperlipidemia by common risk factors

Stage I first selects the risk factors of hypertension and hyperlipidemia using six data mining approaches: logistic regression analysis, C5.0 decision tree, Classification and Regression Tree (CART), Chi-squared Automatic Interaction Detector (CHAID), exhaustive CHAID, and discriminant analysis

  • 根据相关系数筛选变量
  • 根据IV(WOE)指标筛选变量
    https://blog.csdn.net/shenxiaoming77/article/details/78771698
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
分析分销商的消费记录数据可以帮助你了解他们的消费行为、市场表现和潜在机会。以下是一些可以考虑的分析思路: 1. 消费趋势分析:通过对消费记录数据进行时间序列分析,可以观察到分销商的消费趋势,例如季节性变化、月度或年度增长率等。这可以帮助你了解他们的购买习惯和消费行为的变化。 2. 分销商排名分析:通过计算每个分销商的消费金额或销售额,可以将他们进行排名,并识别出最具贡献的分销商。这可以帮助你确定哪些分销商对业绩的影响最大,以及哪些分销商可能需要更多关注和支持。 3. 地理分布分析:通过将分销商的消费记录数据与地理位置信息结合起来,可以进行地理分布分析。这可以帮助你了解不同地区的消费情况,发现潜在的地区市场机会或研究市场渗透度。 4. 产品类别分析:将消费记录数据按照产品类别进行分组,并分析每个分销商在不同产品类别上的消费情况。这可以帮助你识别出每个分销商对不同产品类别的偏好和需求,以便优化产品组合和定位策略。 5. 消费者细分分析:通过分析分销商的消费记录数据,可以识别出不同类型的消费者群体。可以根据消费频率、消费金额、购买行为等指标将分销商进行细分,并针对不同的消费者群体制定个性化的营销策略。 6. 增长机会分析:通过挖掘消费记录数据,可以发现潜在的增长机会。例如,识别出低消费但潜力巨大的分销商,或者发现一些特定产品类别的销售额增长较快的分销商。这可以帮助你制定针对性的增长策略和销售推广计划。 以上是一些常见的数据分析思路,具体的分析方法和技术可以根据你的数据特点和业务需求进行调整和扩展。使用数据分析工具(如Excel、Power BI等)能够更方便地进行这些分析,并生成可视化报告以支持决策和战略规划。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值