qq_45041588-CSDN博客

原创 2020-09-27

Boosting Boosting是一种将各种弱分类器串联起来的集成学习方式，每一个分类器的训练都依赖于前一个分类器的结果，顺序运行的方式导致了运行速度慢。和所有融合方式一样，它不会考虑各个弱分类器模型本身结构为何，而是对训练数据（样本集）和连接方式进行操纵以获得更小的误差。但是为了将最终的强分类器的误差均衡，之前所选取的分类器一般都是相对比较弱的分类器，因为一旦某个分类器较强将使得后续结果受到影响太大。所以多用于集成学习而非模型融合（将多个已经有较好效果的模型融合成更好的模型）。这里引用知乎专

2020-09-27 21:53:55 129

原创 2020-09-24

1. 什么是决策树 1.1 决策树的基本思想其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别，我们可以思考一下一个决策问题：是否去相亲，一个女孩的母亲要给这个女海介绍对象。大家都看得很明白了吧！LR模型是一股脑儿的把所有特征塞入学习，而决策树更像是编程语言中的if-else一样，去做条件判断，这就是根本性的区别。 1.2 “树”的成长过程决策树基于“树”结构进行决策的，这时我们就要面临两个问题： “树”怎么长。这颗“树”长到什么时候停。弄懂了这两个问题，那么这个模型就已经建立起

2020-09-24 20:58:45 151

原创 task3-数据分箱

卡方分箱卡方分箱是自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化，相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。这里需要注意初始化时需要对实例进行排序，在排序的基础上进行合并。卡方阈值的确定：　　根据显著性水平和自由度得到卡方值　　自由度比类别数量小1。例如：有3类,自由度为2，

2020-09-21 21:19:46 204

原创 task2

数据类型定量数据定量数据(quantitativedata)也称计量资料。变量的观测结果是数值型的,用来说明研究对象的数量特征,其特点是能够用数值大小衡量观察单位不同特征水平的高低,一般有计量单位。根据变量取值域可分为连续型定量数据和离散型定量数据。前者具有无限可能的值,例如身高、体重、血压、温度等;后者通常只能取正整数,例如家庭成员数、脉搏、白细胞计数等。在医学领域通常对这两种数据类型不做特别区分,而统称为定量数据。定性数据定性数据(gualitative data)也称计数资料。变量的观测值是定

2020-09-18 21:32:01 227

原创学习笔记1——赛题理解

学习笔记1——赛题理解 1.ROC曲线（接受者操作特性曲线）在了解ROC曲线之前，需要明白混淆矩阵的概念（Confuse Matrix）。混淆矩阵的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。举一混淆矩阵的例子真假真 TP 假 FP 预测为真实际为真，为真正类TP（True Positive）。预测为假实际为真，为假负类FN（False Negative）。预测为真实际

2020-09-14 19:59:23 202

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 2020-09-27

原创 2020-09-24

原创 task3-数据分箱

原创 task2

原创 学习笔记1——赛题理解

空空如也

空空如也

原创学习笔记1——赛题理解