笔记
文章平均质量分 83
OasisCrush_
这个作者很懒,什么都没留下…
展开
-
决策树原理整理
一、决策树的基本思想决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法的核心是要解决两个问题:1)如何从数据表中找出最佳节点和最佳分枝?2)如何让决策树停止生长,防止过拟合?1. 决策树模型的建树依据(1)决策树模型的建树依据主要用到的是基尼系数概念。基尼系数(gini)用于计算一个系统中的失序现象,即系统的混乱程度越高,基尼系数越高,建立决策树模型的目的就是降低系原创 2022-01-04 16:26:00 · 3337 阅读 · 0 评论 -
数据处理+BoxCox因变量转换学习--kaggle房价预测项目(二)
1. 删除异常值首先是异常值,我们已经发现在房屋面积和地下室面积这两个特征里面可能存在异常值,可以把它们删掉。#删除掉异常值train = train.drop(train[(train['GrLivArea']>4000) & (train['SalePrice']<300000)].index)##对异常值进行删除重新画图,可以看到异常值没有了,在这里我们只看了一个变量,有兴趣的同学也可以看一下其他的变量异常值的分布情况。fig, ax = plt.subplots()a原创 2021-08-04 20:28:24 · 454 阅读 · 0 评论 -
线性回归(LinearRegression)原理整理+代码实现
线性回归(LinearRegression)原理+代码实现1. 线性回归原理1.1 五个前提假设1.2 定义及公式1. 线性回归原理1.1 五个前提假设(1)线性性 & 可加性假设因变量为Y,自变量为X1,X2,则回归分析的默认假设为Y=b+a1X1+a2X2+ε。线性性:X1每变动一个单位,Y相应变动a1个单位,与X1的绝对数值大小无关。可加性:X1对Y的影响是独立于其他自变量(如X2)的。(2)误差项(ε)之间应相互独立。若不满足这一特性,我们称模型具有自相关性(Autoc原创 2021-08-07 00:03:24 · 8550 阅读 · 0 评论