周志华教授的书中用到了不少数学公式和运算过程,为了方便理解,对于比较复杂的数学运算我先只分析其中的思维方法,不对具体运算做深究。
一、什么是线性模型
所谓线性(linear),是指量与量之间按比例、成直线的关系,即一次函数关系。一般来讲,如果两个变量呈线性关系,在平面坐标轴上画出来的图像是一条直线。非线性(non-linear)则指不按比例、不成直线的关系,如二次或多次函数关系。
线性模型(linear model)试图学到一个通过属性的线性组合来进行预测的函数。比如,doudog通过对美女的年龄、身高、体重、皮肤、脸型和声音等属性综合预测女神,那么它可以为每个属性设定一个权重,假设总共需要组合d个属性,每个属性的权重是wd,那么就得到:
f(x) = w1*年龄 + w2*身高 + w3*体重 + w4*皮肤 + w5*脸型 + w6*声音 + ... + wd*属性d + b
这就是一个线性模型,其中w的值越大说明对应的属性越重要,b是随机误差,由其他未考虑因素和随机性影响
二、线性回归
我们有了模型,然后根据模型去确定样本的分类,比如我给doudog一个y = 0.1*年龄 + 0.1*身高 + 0.1*体重 + 0.3*皮肤 + 0.1*脸型 + 0.3*声音 + 1,那么doudog只要把美女的年龄、身高、体重等属性数据带进去,求出y的值,就可以求出女神指数。这相当于把训好的狗放出去。
那反过来,如果我们不知道w权重的值,