一、算法
1.1 逻辑回归的优缺点,在金融领域相比其他算法的优缺点?
优点:
(1)实现简单,速度快,占用内存小,可在短时间内迭代多个版本的模型。
(2)模型的可解释性非常好,可以直接看到各个特征对模型结果的影响,可解释性在金融领域非常重要,所以在目前业界大部分使用的仍是逻辑回归模型。
(3)模型客群变化的敏感度不如其他高复杂度模型,因此稳健更好,鲁棒性更强。
(4)特征工程做得好,模型的效果不会太差,并且特征工程可以并行开发,大大加快开发的速度。
(5)模型的结果可以很方便的转化为策略规则,且线上部署简单。
缺点和局限性:
(1)容易欠拟合,相比集成模型,准确度不是很高。
(2)对数据的要求比较高,逻辑回归对缺失值,异常值,共线性都比较敏感,且不能直接处理非
线性的特征。所以在数据清洗和特征工程上会花去很大部分的时间。
(3)在金融领域对场景的适应能力有局限性,例如数据不平衡问题,高维特征,大量多类特征,
逻辑回归在这方面不如决策树适应能力强。
1.2 逻辑回归是线性模型吗?逻辑回归和线性回归的区别?
逻辑回归是一种广义线性模型,它引入了 Sigmod 函数,是非线性模型,但本质上还是一个线性回归模型,因为除去 Sigmod 函数映射关系,其他的算法原理,步骤都是线性回归的。逻辑回归和线性回归首先都是广义的线性回归,在本质上没多大区别,区别在于逻辑回归多了个 Sigmod 函数,使样本映射到[0,1]之间的数值,从而来处理分类问题。另外逻辑回归是假设变量服从伯努利分布,线性回归假设变量服从高斯分布。逻辑回归输出的是离散型变量,用于分类,线性回归输出的是连续性的,用于预测。逻辑回归是用最大似然法去计算预测函数中的最优参数值,而线性回归是用最小二乘法去对自变量因变量关系进行拟合。
1.3 逻辑回归做分类的样本应该满足什么分布?
应该满足伯努利分布,逻辑回归的分类标签是基于样本特征通过伯努利分布产生的,分类器
要做的就是估计这个分布。
1.4 逻辑回归解决过拟合的方法有哪些?
减少特征数量,在实际使用中会用很多方法进行特征筛选,例如基于 IV 值的大小,变量的
稳定性,变量之间的相关性等。
正则化,常用的有 L1 正则化和 L2 正则化。
WOE计算公式
其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,#yi是这个组中响应客户的数量,#ni是这个组中未响应客户的数量,#yT是样本中所有响应客户的数量,#nT是样本中所有未响应客户的数量。
IV计算公式
L1 正则化和 L2 正则化相关内容:正则化_kinghannah的博客-CSDN博客_正则化
正则化中涉及到的范数:到底什么是范数?什么是0范数、1范数、2范数?区别又是什么?_yiixiou的博客-CSDN博客_2范数
IV 值和WOE相关内容:特征筛选之—IV值_小小数据挖掘工程师的博客-CSDN博客_iv值
1.5 什么是特征的离散化和特征交叉?逻辑回归为什么要对特征进行离散化?
特征离散化是将数值型特征(一般是连续型的)转变为离散特征,例如评分卡中的 woe 转化,就是将特征进行分箱,再将每个分箱映射到 woe 值上,就转换为了离散特征。特征交叉也叫作特征组合,是将单独的特征进行组合,使用相乘/相除/笛卡尔积等形成合成特征,有助于表示非线性关系。比如使用 One-Hot 向量的方式进行特征交叉。这种方式一般适用于离散的情况,我们可以把它看做基于业务理解的逻辑和操作,例如经度和纬度的交叉,年龄和性别的交叉等。
实际工作中很少直接将连续型变量带入逻辑回归模型中,而是将特征进行离散化后再加入模
型,例如评分卡的分箱和 woe 转化。这样做的优势有以下几个:
1)特征离散化之后,起到了简化模型的作用,使模型变得更稳定,降低了模型过拟合的风险。
2)离散化之后的特征对异常数据有很强的鲁棒性,实际工作中的哪些很难解释的异常数据一般不会做删除处理,如果特征不做离散化,这个异常数据带入模型,会给模型带来很大的干扰。
3)离散特征的增加和减少都很容易,且稀疏向量的内积乘法运算速度快,易于模型的快速迭代。4)逻辑回归属于广义线性模型,表达能力有限,特征离散化之后,每个离散变量都有单独的权重,相当于给模型引入了非线性,能够提高模型的表达能力。
5)离散化后的特征可进行特征交叉,进一步引入非线性,提高模型的表达能力。
1.6 在逻辑回归中,为什么要常常做特征组合(特征交叉)?
逻辑回归模型属于线性模型,线性模型不能很好处理非线性特征,特征组合可以引入非线性特征,提升模型的表达能力。另外,基本特征可以认为是全局建模,组合特征更加精细,是个性化建模,但对全局建模会对部分样本有偏,对每一个样本建模又会导致数据爆炸,过拟合,所以基本特征+特征组合兼顾了全局和个性化。
1.7 做评分卡中为什么要进行 WOE 化?
更好的解释性,变量离散化之后可将每个箱体映射到 woe 值,而不是通常做 one-hot 转换。
woe 化之后可以计算每个变量的 IV 值,可用来筛选变量。
对离散型变量,woe 可以观察各个 level 间的跳转对 odds 的提升是否呈线性。
对连续型变量,woe 和 IV 值为分箱的合理性提供了一定的依据,也可分析变量在业务上的可解释性。
用 woe 编码可以处理缺失值问题。