机器学习理论基础篇--关于机器学习的一些术语

最新推荐文章于 2022-10-14 07:03:03 发布

夺笋123

最新推荐文章于 2022-10-14 07:03:03 发布

阅读量557

点赞数

分类专栏： # sklearn机器学习库文章标签： python 机器学习 sklearn

本文链接：https://blog.csdn.net/m0_54510474/article/details/124360905

版权

sklearn机器学习库专栏收录该内容

20 篇文章 14 订阅

订阅专栏

成本函数（误差）

衡量模型与训练样本的符合程度
成本是针对所有训练样本，模型拟合出来的值与训练样本真实值的误差平均值
成本函数就是成本与模型参数的函数关系

$J_{train}(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^i)-t^i)^2$
其中 $h(x^i)$ 表示模型对于每个样本值的预测标签， $t^i$ 表示每个样本的真实标签

模型的训练过程就是要找到合适的模型参数使得成本函数的值最小

模型准确性

针对一个数据集可能会使用多个模型对其拟合（比如使用一阶多项式、二阶多项式、…、多阶多项式），我们往往会从这些模型中选出表现最好的那个，那么如何评价一个模型的表现好坏？

我们往往使用测试集的成本函数值作为指标， $J_{test}(\theta)$ 值越小说明模型预测出来的值与样本实际值之间的误差越小，即对新数据的预测准确性越好
$J_{test}(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^i)-t^i)^2$

在sklearn中常使用接口score(x,y)来评价一个模型的性能

交叉验证数据集

如果现在有一个数据集，我们想要从中得到一些信息，有多个模型供选择，那么我们就需要做下面三个事情
1.使用可能的多个模型训练模型参数
2.从多个模型中选择最优秀的模型
3.评价这个模型的预测准确性

测试数据集的主要目的是测试模型的准确性，而这一过程需要模型使用没有“见到过”的数据，如果步骤2使用了测试数据，那么数据就被“见过了”，为解决这一问题，我们可以将数据集分为3部分，多出来的那个就是交叉验证数据集

很多时候我们并没有使用到交叉验证数据集，这是因为大多数时候对于一个数据集，我们知道要使用什么模型

学习曲线

以训练数据集和测试数据集的成本函数值作为纵轴，训练数据集大小作为横轴，画出曲线
使用sklearn中提供的接口绘制学习曲线

from sklearn.model_selection import learning_curve,ShuffleSplit

def plot_learning_curve(estimator,x,y,cv=None,n_jobs=1,train_size=np.linspace(.1,1.0,5)):
    train_size,train_score,test_score=learning_curve(estimator,x,y,cv=cv,n_jobs=n_jobs,train_sizes=train_size)
    # 求均值，方差
    train_score_mean=np.mean(train_score,axis=1)
    train_score_std=np.std(train_score,axis=1)
    test_score_mean=np.mean(test_score,axis=1)
    test_score_std=np.std(test_score,axis=1)
    plt.plot(train_size,train_score_mean,'o-',c='r')
    plt.plot(train_size,test_score_mean,'o-',c='g')
    return plt