Datawhale 零基础入门数据挖掘-打卡day·4

一、机器学习建模的过程:

建模的过程离不开模型的求解,我们假设输入特征变量记为X,输出变量记为Y,他们对应的具体取值分别记为x和y,输入实例x的列向量可以表示为:x=(x(1),x(1),…,x(i),…,x(n))T。其中x(i)表示x的第i个特征值,因此x是一个具有n个特征值的特征向量。第i个输入实例的第k个特征值就表示为x(k)i。
1.根据特征向量的数据分布提出一个合适的模型函数 y=f(x;θ) 来估计参数分布。
2.提出一个合适的损失函数 L(x,y) 计算对于训练数据集上的所有训练样本估计的误差损失大小:L(x,y)=1NN∑i=1L(yi,f(xi))。
3.用合适的优化算法使得损失函数带有参数的 L(x,y) 的值最小化,即:minf∈F1NN∑i=1L(yi,f(xi))。
4.就是求解最优化上述函数值得到 L(yi,f(xi)) 的最小值,从而得到原函数 y=f(x;θ) 的参数值θ的解:θ=(θ(1),θ(2),…,θ(K))。

本次预测的是二手车金额,是一个回归问题。回归主要是预测连续型数据的目标值。

二、线性回归模型:

##1.线性回归对于特征的要求;

线性回归的假设前提是噪声服从正态分布,即因变量服从正态分布。

(1)自变量与因变量之间存在线性关系
(2)各观测间相互独立 任意两个观测残差的协方差为0
(3)残差e 服从正态分布N(0,σ2) 。
(4) e 的大小不随所有变量取值水平的改变而改变,即方差齐性。

处理长尾分布;
特征预处理–长尾分布的处理方案
理解线性回归模型;

三、模型性能验证:

评价函数与目标函数;
交叉验证方法;
留一验证方法;
针对时间序列问题的验证;
绘制学习率曲线;
绘制验证曲线;
简答的线性回归如y=ax+b,这是只有一个特征时的情况,而对于多个特征,就变成了多元线性回归。公式如下:
在这里插入图片描述

这个θ为对应自变量的权重值,越大,证明该特征对结果的影响越重要。由此可以对特征进行筛选。而我们要求得就是这个参数。

四、嵌入式特征选择:

Lasso回归;
Ridge回归;
决策树;

五、模型对比:

常用线性模型;
常用非线性模型;

六、模型调参:

贪心调参方法;
网格调参方法;
贝叶斯调参方法;

七、参考学习资料

1 线性回归模型
https://zhuanlan.zhihu.com/p/49480391

2 决策树模型
https://zhuanlan.zhihu.com/p/65304798

3 GBDT模型
https://zhuanlan.zhihu.com/p/45145899

4 XGBoost模型
https://zhuanlan.zhihu.com/p/86816771

5 LightGBM模型
https://zhuanlan.zhihu.com/p/89360721

6 推荐教材:
《机器学习》 https://book.douban.com/subject/26708119/
《统计学习方法》 https://book.douban.com/subject/10590856/
《Python大战机器学习》 https://book.douban.com/subject/26987890/
《面向机器学习的特征工程》 https://book.douban.com/subject/26826639/
《数据科学家访谈录》 https://book.douban.com/subject/30129410/

八、模型融合

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值