CH2-机器学习基础模型回顾

最新推荐文章于 2024-08-19 21:49:13 发布

GHost#°

最新推荐文章于 2024-08-19 21:49:13 发布

阅读量108

点赞数

文章标签：决策树机器学习 python 人工智能

本文链接：https://blog.csdn.net/Ghost_111/article/details/119801561

版权

非监督学习之生成数据集

在这里插入图片描述
生成用于聚类的各向同性高斯分布数据集：

import sklearn.datasets
sklearn.datasets.make_blobs(n_samples=100, n_features=2, *, centers=None, 
	cluster_std=1.0, center_box=- 10.0, 10.0, shuffle=True, 
	random_state=None, return_centers=False)

回归问题

线性回归

使拟合出的平面到数据点的距离差异最小，为了使这种距离可导，采用二范数表达点到拟合平面的距离。
模型假设：
$w^{T}\boldsymbol{x}$
损失函数：
$\sum\limits_{i=1}^{N}||w^Tx_i-y_i||_2^2=\sum\limits_{i=1}^{N}(w^Tx_i-y_i)^2 = (w^TX^T-Y^T)(w^TX^T-Y^T)^T \\= w^TX^TXw - 2w^TX^TY+YY^T\\$
求使得 $L (w)$ 最小的参数 $w$ 即线性回归的最小二乘估计，解得 $w = (X^{T}X)^{-1}X^{T}Y$

多项式回归

$y_i = w_0 + w_1x_i + w_2x_i^2 + ...+w_dx_i^d$
一般而言d<5

广义可加模型（GAM）

用非线性函数来代替每一个自变量
$y_{i} =w_{0}+ \sum_{i=1}^{n}f_{i}(x_{i})$
优点：模型易解释，简单
缺点：模型不够复杂

回归树

非线性

sklearn.tree

依据分层和分割的方式将特征空间划分为一系列简单的区域，使用训练集的平均数或者众数对其进行预测。决策树由结点(node)和有向边(diredcted edge)组成。结点有两种类型：内部结点(internal node)和叶结点(leaf node)。
不同的分割方法求loss，以最小loss的分割方法为此节点的分割方法

优点：

树模型的解释性强，在解释性方面可能比线性回归还要方便；
树模型可以直接做定性的特征而不需要像线性回归一样哑元化（哑编码）。
能很好处理缺失值和异常值，对异常值不敏感

支持向量回归

约束优化问题之KKT条件

对偶问题：将难以解决的原问题转换成对偶问题，任何一个原问题在变成对偶问题后都会变成一个凸优化的问题。

在这里插入图片描述

GHost#°

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CH2-机器学习基础模型回顾

非监督学习之生成数据集生成用于聚类的各向同性高斯分布数据集：import sklearn.datasetssklearn.datasets.make_blobs(n_samples=100, n_features=2, *, centers=None, cluster_std=1.0, center_box=- 10.0, 10.0, shuffle=True, random_state=None, return_centers=False)回归问题线性回归使拟合出的平面到数据点的距
复制链接

扫一扫