机器学习算法
农夫左三拳
这个作者很懒,什么都没留下…
展开
-
《计量经济学 张晓峒著》学习笔记
一、一般过程:确定研究对象 → 收集数据 → 画变量散点图 → 设计、估计、诊断、检验模型、分析回归参数、预测。1.确定研究对象:略2. 收集数据:略3. 画变量散点图:一定要养成习惯,画变量散点图。4. 设计、估计、诊断、检验模型、分析回归参数、预测:本书重点二、一元线性回归模型1.模型的建立及假定条件一元线性回归模型:2.最小二乘估计(OLS)注意:残差是对随机误差项的...原创 2020-02-21 14:57:49 · 544 阅读 · 0 评论 -
validation_curve验证曲线与超参数
validation_curve()的位置在之前,此函数位置在sklearn.learning_curve.validation_curve(),现在,此函数的位置在sklearn.model_selection.validation_curve()。validation_curve()的作用我们知道误差是由偏差(bias)、方差(variance)、噪声(noise)组成。偏差:模型对于...原创 2020-02-20 16:58:32 · 6393 阅读 · 0 评论 -
机器学习中对变量数据进行Log变化
机器学习算法中,一些算法要求数据符合正态分布,但是对于一些标签和特征来说,分布不一定符合正态分布,这个要怎么处理呢?一个现在比较常见的方式是将数据进行Log变,即取对数,这样可以使得数据在一定程度上符合正态分布的特征。效果如下图所示:(转换前)(转换后)...原创 2019-12-26 09:38:14 · 9314 阅读 · 0 评论 -
Python GBDT+LR
此文主要根据scikit-learn官方文档而来, 中间插入了一些个人比较容易理解的注释。通过roc-auc曲线来比对不同算法组合的效果,算法包括:RT+LR、RF、RF+LR、GBDT、GBDT+LR,结果表明,通过GBDT算法fit后,进行OneHot transformation,然后再进行LR Classification的效果是最好的。在工业生产上,也有多家企业将GBDT+LR最为生...原创 2019-12-09 13:51:24 · 593 阅读 · 0 评论 -
python 集成学习
Bagging分类器组合:sklearn.ensemble.bagging.BaggingClassifierBagging回归器组合:sklearn.ensemble.bagging.BaggingRegressorAdaBoost分类器组合:sklearn.ensemble.AdaBoostClassifierAdaBoost回归器组合:sklearn.ensemble.AdaBoost...原创 2019-11-12 09:52:35 · 341 阅读 · 0 评论 -
评分卡模型中的IV和WOE详解(抄录)
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量,也有称VOI,即Value Of Information。我们在用逻辑回归,决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中进行你拟合训练,而是会用一些方法,从这200个变量中挑选一些出来,放进模型,形成模变量列表...转载 2019-08-26 20:56:44 · 1061 阅读 · 0 评论 -
《统计学习方法》笔记第五章(未完)
决策树是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合 ,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步...原创 2019-07-09 14:26:54 · 348 阅读 · 0 评论 -
《统计学习方法》笔记第四章
朴素贝叶斯(naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。本章叙述朴素贝叶斯法,包括朴素贝叶斯法的学习与分类、朴素贝叶斯法的参数估计法。朴素贝叶斯法通过训练数据集...原创 2019-06-27 16:45:50 · 152 阅读 · 0 评论 -
《统计学习方法》笔记第一章
1.在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。输入与输出空间可以是有限元素的集合,也可以是整个欧式空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间;但通常输出空间远远小于输入空间。2.损失函数和风险函数损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。常见的损失函数L有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等。...原创 2019-06-10 11:14:10 · 207 阅读 · 0 评论 -
坏样本不够多,怎么办?
本文是转载自微信公众号 屁屁的sas数据分析今天的话题,是建模前提如何处理坏样本过少的问题。样本过少分两种情况。一种是确实没啥坏样本,就是几十个,一百来个。另外一种就是相对于好样本,坏样本比较少,例如你有一百万的好样本,只有一万的坏样本,第二种就是属于样本不均衡的话题,这个网上的文献也都有好多,我这里就不展开了。样本过少之我只有几十个坏样本。这种情况多数发生在产品刚上线的时候,没啥数据,但...转载 2019-01-08 20:09:19 · 2192 阅读 · 0 评论 -
决策树归纳
决策树归纳是从有类标号的训练样本中学习决策树,决策树是一种类似于流程图的树结构,其中,每个内部结点(非树叶结点)表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点(或终端结点)存放一个类标号。 ID3、C4.5、CART都采用贪心(即非回溯的)方法,只考虑当前纯度差最大的情况作为分割点,其中决策树以自顶向下递归的分治方式构造。决策树构建的基本步骤如下: 1. 开始,所...原创 2018-05-09 15:23:19 · 1867 阅读 · 0 评论