- 博客(5)
- 收藏
- 关注
原创 2020-09-27
Boosting Boosting是一种将各种弱分类器串联起来的集成学习方式,每一个分类器的训练都依赖于前一个分类器的结果,顺序运行的方式导致了运行速度慢。和所有融合方式一样,它不会考虑各个弱分类器模型本身结构为何,而是对训练数据(样本集)和连接方式进行操纵以获得更小的误差。但是为了将最终的强分类器的误差均衡,之前所选取的分类器一般都是相对比较弱的分类器,因为一旦某个分类器较强将使得后续结果受到影响太大。所以多用于集成学习而非模型融合(将多个已经有较好效果的模型融合成更好的模型)。 这里引用知乎专
2020-09-27 21:53:55 129
原创 2020-09-24
1. 什么是决策树 1.1 决策树的基本思想 其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。 大家都看得很明白了吧!LR模型是一股脑儿的把所有特征塞入学习,而决策树更像是编程语言中的if-else一样,去做条件判断,这就是根本性的区别。 1.2 “树”的成长过程 决策树基于“树”结构进行决策的,这时我们就要面临两个问题 : “树”怎么长。 这颗“树”长到什么时候停。 弄懂了这两个问题,那么这个模型就已经建立起
2020-09-24 20:58:45 151
原创 task3-数据分箱
卡方分箱 卡方分箱是自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。 基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。 这里需要注意初始化时需要对实例进行排序,在排序的基础上进行合并。 卡方阈值的确定: 根据显著性水平和自由度得到卡方值 自由度比类别数量小1。例如:有3类,自由度为2,
2020-09-21 21:19:46 204
原创 task2
数据类型 定量数据 定量数据(quantitativedata)也称计量资料。变量的观测结果是数值型的,用来说明研究对象的数量特征,其特点是能够用数值大小衡量观察单位不同特征水平的高低,一般有计量单位。根据变量取值域可分为连续型定量数据和离散型定量数据。前者具有无限可能的值,例如身高、体重、血压、温度等;后者通常只能取正整数,例如家庭成员数、脉搏、白细胞计数等。在医学领域通常对这两种数据类型不做特别区分,而统称为定量数据。 定性数据 定性数据(gualitative data)也称计数资料。变量的观测值是定
2020-09-18 21:32:01 227
原创 学习笔记1——赛题理解
学习笔记1——赛题理解 1.ROC曲线(接受者操作特性曲线) 在了解ROC曲线之前,需要明白混淆矩阵的概念(Confuse Matrix)。 混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。 举一混淆矩阵的例子 真 假 真 TP 假 FP 预测为真实际为真,为真正类TP(True Positive)。 预测为假实际为真,为假负类FN(False Negative)。 预测为真实际
2020-09-14 19:59:23 202
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人