数据科学的模型方法(监督学习、无监督学习、半监督学习)笔记

数据科学的模型方法分为监督学习、无监督学习、半监督学习

监督学习

有监督学习是指在建模时,对每个(某些)自变量Xi=(Xi1,Xi2,L,XipT(向量默认用列表示),i=1,2…,n,都有对应的因变量Yi

模型学习好坏,可以由因变量的实际观察值评判,一个好的模型对因变量的预测值要尽可能接近其对应的真实观察值。

根据因变量取连续值或离散值,有监督学习又分为回归(regression)分类(classification) 两大类问题。(当因变量取连续值时,称之为回归)

回归

f的形式可以是已知的(如最简单的线性回归),我们称这类方法为参数回归;也可以是未知的,此时就需要根据数据去估计f,称这类方法为非参数回归。

y回归类型
连续变量多元线性回归
二分类(0/1)逻辑回归
多分类,定序(1,2,3,4,5)定序回归
多分类,不定序(1,2…)泊松回归

建模时,需拟合一个比较合理的 f ^ . \\f\hat\\. f^.去估计f,当给定了X,我们就可以得到 y ^ = f ^ x \\y\hat\\=f\hat\\x y^=f^x。由于变量间关系的随机性,回归分析关心的是根据X的给定值,考察y的总体均值E(y|X),即当解释变量取某个确定值时,被解释变量所有可能出现的对应的平均值。

y通常称为被解释变量或因变量或响应变量
X通常称为解释变量或自变量或协变量

在数据挖掘和机器学习里,把模型f往往看成“机器”或者“盒子”,因此,y往往又更加形象地称之为输出变量,X称为输入变量。

分类

当因变量取离散值时,我们称之为分类。
模仿回归的表达式,我们可以将分类问题写成
y=C(x)
其中,C是关于X的函数,往往被称为分类器,比如Logistic模型、决策树、随机森林和支持向量机等

无监督学习

无监督学习指的是只有X,而没有y,对于这类数据,我们无法像有监督学习方法那样拟合模型去预测。所以无监督学习往往用于理解数据的结构,数据降维等。无监督学习经典的方法有聚类分析主成分分析因子分析关联规则社交网络

半监督学习

在实际问题中,假设共有n个观测,其中m(m<n)个既能观测到X,也能观测到y,而剩下的n-m个由于数据采集困难等原因,只能观测到X,而无法观测到y。在建模的时候,我们综合利用了这两部分信息,则把这类问题称之为半监督学习。

总结

总结如下图
在这里插入图片描述
最后,感谢孟老师

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值