自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 2020-09-27

BoostingBoosting是一种将各种弱分类器串联起来的集成学习方式,每一个分类器的训练都依赖于前一个分类器的结果,顺序运行的方式导致了运行速度慢。和所有融合方式一样,它不会考虑各个弱分类器模型本身结构为何,而是对训练数据(样本集)和连接方式进行操纵以获得更小的误差。但是为了将最终的强分类器的误差均衡,之前所选取的分类器一般都是相对比较弱的分类器,因为一旦某个分类器较强将使得后续结果受到影响太大。所以多用于集成学习而非模型融合(将多个已经有较好效果的模型融合成更好的模型)。​ 这里引用知乎专

2020-09-27 21:53:55 102

原创 2020-09-24

1. 什么是决策树1.1 决策树的基本思想其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。大家都看得很明白了吧!LR模型是一股脑儿的把所有特征塞入学习,而决策树更像是编程语言中的if-else一样,去做条件判断,这就是根本性的区别。1.2 “树”的成长过程决策树基于“树”结构进行决策的,这时我们就要面临两个问题 :“树”怎么长。这颗“树”长到什么时候停。弄懂了这两个问题,那么这个模型就已经建立起

2020-09-24 20:58:45 126

原创 task3-数据分箱

卡方分箱卡方分箱是自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。这里需要注意初始化时需要对实例进行排序,在排序的基础上进行合并。卡方阈值的确定:  根据显著性水平和自由度得到卡方值  自由度比类别数量小1。例如:有3类,自由度为2,

2020-09-21 21:19:46 172

原创 task2

数据类型定量数据定量数据(quantitativedata)也称计量资料。变量的观测结果是数值型的,用来说明研究对象的数量特征,其特点是能够用数值大小衡量观察单位不同特征水平的高低,一般有计量单位。根据变量取值域可分为连续型定量数据和离散型定量数据。前者具有无限可能的值,例如身高、体重、血压、温度等;后者通常只能取正整数,例如家庭成员数、脉搏、白细胞计数等。在医学领域通常对这两种数据类型不做特别区分,而统称为定量数据。定性数据定性数据(gualitative data)也称计数资料。变量的观测值是定

2020-09-18 21:32:01 177

原创 学习笔记1——赛题理解

学习笔记1——赛题理解1.ROC曲线(接受者操作特性曲线)在了解ROC曲线之前,需要明白混淆矩阵的概念(Confuse Matrix)。混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。举一混淆矩阵的例子真假真TP假FP预测为真实际为真,为真正类TP(True Positive)。预测为假实际为真,为假负类FN(False Negative)。预测为真实际

2020-09-14 19:59:23 173

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除