机器学习
文章平均质量分 82
潜行者丶
记录工作和学习的过程。
展开
-
反欺诈模型开发总结
反欺诈模型开发难度较高大部分情况下没有标签,无法使用有监督学习算法欺诈定义模糊,即没有明确的界限将欺诈和非欺诈区分开来噪声点和异常点(欺诈点)易混淆,需要区分不了解每种诈骗定义,很难区分不同诈骗类型在有标签的情况下,也很难单纯依靠监督模型,因为欺诈的方式在不断进化,而监督模型只能识别出现过的欺诈行为表面看是二分类,实际是多分类问题(每种欺诈类型为一类)尽管如此,也说明反欺诈和反...原创 2019-12-02 16:44:36 · 3562 阅读 · 0 评论 -
支持向量机(SVM)
支持向量机(SVM)关键字:二分类 核函数 软/硬间隔求解能够正确划分训练数据集且几何间隔最大的分离超平面线性可分支持向量机线性可分,硬间隔最大化间隔最大的分离超平面存在且唯一分离超平面,wTxi+b=0w^Tx_i+b=0wTxi+b=0决策函数 sign(wxi+b)sign(wx_i+b)sign(wxi+b)线性支持向量机近似线性可分,软间隔最大化非线性...原创 2019-11-30 21:51:24 · 186 阅读 · 0 评论 -
对数几率回归
概念也叫逻辑回归,一种分类算法。通过sigmoid函数将输出值映射到0-1的范围,代表概率预测。w为特征值的权值,b为偏置。该函数是一条S形的曲线,并且曲线在中心点附近的增长速度较快,在两段的增长速度较慢。w值越大,曲线中心的增长速度越快。Y(x)是一个概率分布函数,因此对于二分类而言,离中心点的距离越远,其属于某一类的可能性就越大。代价函数估计模型参数w和b。给定y值为1时,代...原创 2019-11-10 13:01:22 · 348 阅读 · 0 评论 -
集成学习(Ensemble)算法介绍
Ensemble ModelBagging和Boosting都算是Bootstraping的应用。Bootstraping的概念是对样本每次有放回的抽样,抽样K个,一共抽N次。Bagging:每次从总体样本中随机抽取K个样本来训练模型(有放回),重复N次,得到N个模型(++独立构建++),然后将各个模型结果合并,分类问题投票方式结合,回归则是取平均值,e.g.Random Forest。...原创 2019-10-25 22:15:54 · 2601 阅读 · 0 评论 -
决策树(Decision Tree)理解及参数介绍
1.算法过程决策树的生成是一个++递归++过程。1.1递归返回叶节点生成过程当前节点样本全属于同一类,无需划分当前属性集为空或者所有样本在所有属性上取值相同,无法划分,并设置为所含样本最多的类别当前节点样本为空,不能划分,并设置为++父节点++所含样本最多类别1.2伪代码定义函数TreeGenerate,输入为样本集D和属性集A;节点node;if D中样本全为同一...原创 2019-10-25 22:05:30 · 3326 阅读 · 0 评论 -
树模型中的特征重要性(feature_importances_)
Decision Tree该特征带来的标准(信息增益、基尼指数)减少的总和(需要经过标准化). 也被称为基尼重要性.sklearn官网说明原文如下:The importance of a feature is computed as the (normalized) total reduction of the criterion brought by that feature. It...原创 2019-10-25 17:58:35 · 12705 阅读 · 0 评论 -
缺失值处理
缺失值的处理方法在数据的生成、采集、传输、存储等过程中不可避免产生缺失数据,有人为失误和非人为的数据中形式为空、NaN、null、-999等这种没有实际业务含义的字符为什么要处理缺失值很多算法不支持空值输入,因此在训练之前需要填充空值空值的地方丢失了有用信息,直接降低数据质量,低质量数据导致模型效果无法满足目标利用缺失值填充技术,可以一定程度复原真实数据,提供价值信息,使模型效果...原创 2019-12-02 17:33:41 · 1843 阅读 · 0 评论 -
超参数调优
超参数调优模型参数,是使用的模型根据训练数据的分布学习到的参数,不需要人为的设置。超参数,是在模型训练之前设置的参数。通常情况下要对超参数进行优化,选择一组最优超参数,以提高学习的性能和效果。常用的超参数调参的方法有:网格搜索,随机搜索,贝叶斯优化。网格搜索(grid search)使用最广泛的超参数调优方法查找搜索给定范围内的所有的点,来确定最优值。理论上,给定较大范围和较小步长...原创 2019-12-02 17:34:25 · 529 阅读 · 0 评论 -
特征选择
特征选择特征选择的必要性特征选择方法过滤式(filter)1.方差过滤法2.单变量特征选择2.1 Pearson相关系数2.2 互信息和最大信息系数(MIC)2.3 距离相关系数2.4 IV值包裹式(wrapper)递归特征消除(RFE)嵌入式(embedded)正则化算法权重系数或特征重要性特征选择的必要性效率:大量冗余且不相关的特征会让模型的训练和预测变得异常缓慢;效果:噪声特征降低模...原创 2019-12-02 17:34:07 · 399 阅读 · 1 评论 -
过拟合
机器学习之过拟合定义其他解决思考定义过拟合:“学习时选择的模型所包含参数过多,复杂度高于真模型,以至于这一模型对已知数据预测很好,但对未知数据预测很差。”----李航《统计学习方法》。把训练样本自身的一些特点(噪声)当作一般性质学习(学过头了)。欠拟合:另一个极端,对训练样本的一般性质尚未学好(学习能力不足)。其他经验误差:也叫训练误差,即训练集上的误差。泛化误差:...原创 2019-12-02 17:35:01 · 184 阅读 · 0 评论