机器学习模型的分类
机器学习模型有两种形式:参数模型和无参数模型。它们的本质区 别是:参数模型假设函数f(x)有特定的形式,例如线性表达式,而无参 数模型则没有这个要求。
两者各有利弊:
- 参数模型的精度略差但可解释性强。很多情况下,由于限制了f(x)的 表达形式,所以参数模型的精确性可能会略差一些,但是好处是简单,可解释性强,例如逻辑回归模型。
- 无参数模型可解释性差但更精确。相反,无参数模型可解释性差一 些,但是大多数情况下可能模型会更精确。
参数模型:
最简单的参数模型就是线性回归,在回归模型中,假定了f(x) 的形式如下: y=f(X)=w1x1+w2x2+w3x3+…+b 在这个模型中,w1,w2,w3…b 这些参数的值是需要利用算法估计出来的, 例如使用梯度下降法,寻找到让损失函数取得最小值的参数。逻辑回归 模型 也是属于参数模型。
无参数模型:
无参数模型中,f(x) 的形式 不是一个简单固定的函数,它的形式和 复杂 度 与 算法 和 数据 都有很大关系。无参数模型的一个典型例子就是 决策树。它的f(x) 的表现形式是一个树形结构的决策规则,可以翻译为 if…then… .这样的规则,下图是一个“ 是否要接一个offer ”的决策树 模型示意,其他的非参数模型还包含:K近邻,神经网络,支持向量机, 随机森林等算法。
模型输出结果
以逻辑回归模型为例,它的模型输出结果就是一些参数值:特征变量 的回归系数和截距,就是前面提到的参数模型的w1,w2,w3…b 的值
- coef_ : 特征变量的回归系数,如果是二分类模型,shape是(1, n_features),如果是多分类模型,shape是(n_classes, n_features)
- intercept_ : 截距,二分类模型shape是(1,),多分类模型shape是 (n_classes,)
lr