线性和多项式回归
在这一简单的模型中,单变量线性回归的任务是建立起单个输入的独立变量与因变量之间的线性关系;而多变量回归则意味着要建立多个独立输入变量与输出变量之间的关系。除此之外,非线性的多项式回归则将输入变量进行一系列非线性组合以建立与输出之间的关系,但这需要拥有输入输出之间关系的一定知识。训练回归算法模型一般使用随机梯度下降法(SGD)。
优点:
建模迅速,对于小数据量、简单的关系很有效;
线性回归模型十分容易理解,有利于决策分析。
缺点:
对于非线性数据或者数据特征间具有相关性多项式回归难以建模;
难以很好地表达高度复杂的数据。
神经网络由一系列称为神经元的节点通过内部网络连接而成,数据的特征通过输入层被逐级传递到网络中,形成多个特征的线性组合,每个特征会与网络中的权重相互作用。随后神经元对线性组合进行非线性变化,这使得神经网络模型具有对多特征复杂的非线性表征能力。神经网络可以具有多层结构,以增强对于输入数据特征的表征。人们一般利用随机梯度下降法和反向传播法来对神经网络进行训练,请参照上述图解。
优点:
多层的非线性结构可以表达十分复杂的非线性关系;
模型的灵活性使得我们不需要关心数据的结构;
数据越多网络表现越好。
缺点:
模型过于复杂,难以解释;
训练过程需要强大算力、并且需要微调超参数;
对数据量依赖大&