自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 决策树原理整理

一、决策树的基本思想决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法的核心是要解决两个问题:1)如何从数据表中找出最佳节点和最佳分枝?2)如何让决策树停止生长,防止过拟合?1. 决策树模型的建树依据(1)决策树模型的建树依据主要用到的是基尼系数概念。基尼系数(gini)用于计算一个系统中的失序现象,即系统的混乱程度越高,基尼系数越高,建立决策树模型的目的就是降低系

2022-01-04 16:26:00 3254

原创 Arima时间序列模型实现框架+步骤

总结实习中使用的实现ARIMA的两种方式方法一:arima常规步骤数据预处理平稳性检验(观察时序图/自相关系数图/ADF检验,若不平稳则需将其差分平稳化diff(),差分次数即为ARIMA模型中I的阶数非白噪声检验:通过Ljungbox求出检验统计量及P-value从而检验残差的非随机性两种检验均通过后进行定阶:(1)ACF和PACF,通过截尾和拖尾来确定阶数(2)信息准则AIC/BIC定阶ARIMA模型构建预测及模型诊断(检验残差)将差分还原,进行ARIMA模型构

2021-08-07 01:30:45 1207

原创 线性回归(LinearRegression)原理整理+代码实现

线性回归(LinearRegression)原理+代码实现1. 线性回归原理1.1 五个前提假设1.2 定义及公式1. 线性回归原理1.1 五个前提假设(1)线性性 & 可加性假设因变量为Y,自变量为X1,X2,则回归分析的默认假设为Y=b+a1X1+a2X2+ε。线性性:X1每变动一个单位,Y相应变动a1个单位,与X1的绝对数值大小无关。可加性:X1对Y的影响是独立于其他自变量(如X2)的。(2)误差项(ε)之间应相互独立。若不满足这一特性,我们称模型具有自相关性(Autoc

2021-08-07 00:03:24 8480

原创 数据处理+BoxCox因变量转换学习--kaggle房价预测项目(二)

1. 删除异常值首先是异常值,我们已经发现在房屋面积和地下室面积这两个特征里面可能存在异常值,可以把它们删掉。#删除掉异常值train = train.drop(train[(train['GrLivArea']>4000) & (train['SalePrice']<300000)].index)##对异常值进行删除重新画图,可以看到异常值没有了,在这里我们只看了一个变量,有兴趣的同学也可以看一下其他的变量异常值的分布情况。fig, ax = plt.subplots()a

2021-08-04 20:28:24 449

原创 Pandas+Seaborn 查看变量间相关性--kaggle房价预测项目(一)

1.进行各数值变量的相关性分析import seaborn as snsimport pandas as pdcorrmat = train.corr() ##corrmat是相关性矩阵corrmat表中具体数值是变量间的相关系数2.根据相关系数绘制相关系数热力图热力图可以迅速查看变量相关性。颜色越浅的地方说明两个变量的相关性越强。观察saleprice和其他变量的关系发现GrLivArea(地上居住面积)、OverallQual(整体质量)、GarargeCars(车库能装几辆车)等

2021-08-04 16:34:48 1322

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除