每日算法学习

1. SMOTE Algorithm

1.1、定义

全称为Synthetic minoritye over-sampling technique(合成少数类过采样技术),主要为了解决样本不均衡的问题采用的过采样技术,算法的思想是对少数类样本进行人工合成新样本添加到数据集中。
具体的方法为:
1、对于少数类中每一个样本a,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
2、根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本a,从其k近邻中随机选择若干个样本,假设选择的近邻为b。
3、对于每一个随机选出的近邻b,分别与原样本a按照如下的公式构建新的样本:c=a+rand(0,1)∗|a−b|

1.2、作用

在面对分类问题的训练数据集中,例如针对二分类问题,有10000个训练样本,正类样本有9990个、负类样本仅10个,存在样本类别分布差异大的情况,可以使用SMOTE算法解决类别不均衡的问题。

1.3、应用场景

例如使用逻辑回归去区分欺诈和正常人群时,由于绝大部分(如99.9%)样本为正常人群,欺诈人群极少,故逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是欺诈人群的识别率很低。

2. LDA文档主题生成模型

2.1、定义

Latent Dirichlet Allocation隐狄利克雷分配,它是一种无监督的贝叶斯模型。可以自动分析每个文档,统计文档中的词语,根据统计的信息判断当前文档包含哪些主题以及各个主题所占比例各为多少。

2.2、作用

通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类,还可用于降维和特征生成特征供其他机器学习算法使用。

2.3、应用场景

应用于推荐系统时,它能够基于用户的行为对item进行自动聚类,也就是把item划分到不同类别/主题,这些主题/类别可以理解为用户的兴趣。

3. MICE

3.1定义

MICE是在有缺失值的情况下基于多重填补法构造的缺失值填补方法。该种方法在R中是直接可以用的MICE包,主要方式是以填补而非直接剔除的方式处理缺失值。
具体方法为:
对于一个具有缺失值的变量,用其他变量的数据对这个变量进行拟合,再用拟合的预测值对这个变量的缺失值进行填补。
需要注意的是,在对缺失值进行填充的时候,这种填充方法对分类变量的填充效果一般不是非常好,不建议对分类变量做填充,可以对连续变量进行填充。

3.2、作用

可以使用mice便于我们判断数据的缺失情况,同时能通过它选择多重填补法的填补矩阵数、填补用的方法和迭代次数等,避免了直接剔除带来的偏误,同时比简单随机填补等单变量填补方法更多的考虑了其他数据信息的情况。

3.3、应用场景

例如在手写版调查问卷的数据源中,可能存在部分内容在采集过程中的缺失,可以利用MICE方法对缺失数据进行填补。

4. Kendall tau rank correlation coefficient

4.1 定义

肯德尔等级相关系数是用以反映两组变量之间关系密切程度的统计指标。

4.2 分析类型

无参数分析(non-parametric analysis)。

4.3 应用场景

(1)相关系数矩阵(correlation matrix),显示多变量数据中任二变量间的相关性。
(2)数值分布矩阵(scatter plot matrix)及相关系数矩阵,显示多变量数据中任二变量间的数值分布及相关性。
(3)使用相关系数矩阵作变量群聚分析(cluster analysis)及相关系数热图(heatmap)。

5. Pearson Correlation Coefficient(皮尔森/皮尔逊相关系数)

5.1、定义:

用来衡量线性相关程度的大小。

5.2、作用:

判断两个变量线性相关性的强弱;
相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度:
(取值为相关系数的绝对值)
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

5.3、应用场景:

如衡量国民收入和居民储蓄存款、身高和体重等变量间的线性相关关系;
在需要用线性模型(逻辑回归、多元回归模型)进行建模时,需要考虑自变量与因变量之间是否具有相关性,可先计算两者之间的皮尔森相关系数,具有相关性则放入模型当中。

6. Spearman’s correlation coefficient(斯皮尔曼相关系数)

6.1.定义:

斯皮尔曼相关系数是秩相关系数的一种。通常也叫斯皮尔曼秩相关系数。“秩”——可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解。

6.2.作用:

是一种无参数(与分布无关)的检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman Correlation Coefficient(斯皮尔曼相关系数)就是+1或-1,称变量完全Spearman秩相关。无论两个变量的数据如何变化,符合什么样的分布,我们只关心每个数值在变量内的排列顺序如果两个变量的对应值,在各组内的排序顺位是相同或类似的,则具有显著的相关性。

6.3.应用场景:

Spearman相关系数与Pearson相关系数都是机器学习中常用的特征选择方法。
除非是考虑性能的影响,一般能用Pearson系数的地方都能用Spearman系数。除此之外,由于Spearman系数只度量单调关系,而不考虑具体数值的影响,因此Spearman相关系数的应用范围更广,不仅对数据分布不作任何假设,能够容忍异常值,也不需要数据的取值是等距的(但是Spearman相关系数还需要对原始数据进行排序,因此计算复杂度高于Pearson相关系数)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值