数据科学的模型方法（监督学习、无监督学习、半监督学习）笔记

最新推荐文章于 2024-09-16 11:16:36 发布

YJH_HJY

最新推荐文章于 2024-09-16 11:16:36 发布

阅读量426

点赞数 1

文章标签：回归大数据分类数据分析

本文链接：https://blog.csdn.net/YJH_HJY/article/details/129129920

版权

数据科学的模型方法分为监督学习、无监督学习、半监督学习

有监督学习是指在建模时，对每个(某些)自变量X_i=（X_i1,X_i2,L,X_ip）^T(向量默认用列表示)，i=1,2…,n，都有对应的因变量Y_i。

模型学习好坏，可以由因变量的实际观察值评判，一个好的模型对因变量的预测值要尽可能接近其对应的真实观察值。

根据因变量取连续值或离散值，有监督学习又分为回归（regression）和分类(classification) 两大类问题。（当因变量取连续值时，称之为回归）

f的形式可以是已知的（如最简单的线性回归），我们称这类方法为参数回归；也可以是未知的，此时就需要根据数据去估计f，称这类方法为非参数回归。

建模时，需拟合一个比较合理的 $\\f\hat\\.$ 去估计f，当给定了X，我们就可以得到 $\\y\hat\\=f\hat\\x$ 。由于变量间关系的随机性，回归分析关心的是根据X的给定值，考察y的总体均值E(y|X)，即当解释变量取某个确定值时，被解释变量所有可能出现的对应的平均值。

y通常称为被解释变量或因变量或响应变量
X通常称为解释变量或自变量或协变量

在数据挖掘和机器学习里，把模型f往往看成“机器”或者“盒子”，因此，y往往又更加形象地称之为输出变量，X称为输入变量。

当因变量取离散值时，我们称之为分类。
模仿回归的表达式，我们可以将分类问题写成
y=C（x）
其中，C是关于X的函数，往往被称为分类器，比如Logistic模型、决策树、随机森林和支持向量机等

无监督学习指的是只有X，而没有y，对于这类数据，我们无法像有监督学习方法那样拟合模型去预测。所以无监督学习往往用于理解数据的结构，数据降维等。无监督学习经典的方法有聚类分析、主成分分析、因子分析、关联规则、社交网络等

在实际问题中，假设共有n个观测，其中m（m<n）个既能观测到X，也能观测到y，而剩下的n-m个由于数据采集困难等原因，只能观测到X，而无法观测到y。在建模的时候，我们综合利用了这两部分信息，则把这类问题称之为半监督学习。

总结如下图
在这里插入图片描述
最后，感谢孟老师

关注