机器学习基本概念 过拟合和欠拟合

这篇博客主要谈谈关于过拟合和欠拟合,这是机器学习中很重要的问题。

1.什么是过拟合???

由于我自己比较清楚这个概念了,这里就放一张图。

2.学习曲线(sklearn实现)

 

learning curve参数说明:

train_sizes, train_scores, test_scores = learning_curve(
输入:
    (estimator : 你用的分类器。
    X : features
    y : labels
    cv : 做cross-validation的时候,数据分成的份数,其中一份作为cv集,其余n-1份作为training(默认为3份)
    )
输出:(train_sizes:训练样本数
      train_scores:训练集上准确率
      test_scores:交叉验证集上的准确率)

 

# encoding:utf-8
from sklearn.model_selection import learning_curve from sklearn.datasets import load_digits from sklearn.linear_model import LogisticRegression import matplotlib.pyplot as plt import numpy as np digits = load_digits() X = digits.data y = digits.target LR = LogisticRegression() train_sizes, train_scores, test_scores= learning_curve( LR, X, y, cv=10, train_sizes=np.linspace(0.1, 1.0, 10)) train_scores_mean = np.mean(train_scores, axis=1) # 因为我们分了10份,所以有10个结果,这里我们求个平均值 test_scores_mean = np.mean(test_scores, axis=1) plt.plot(train_sizes, train_scores_mean, 'o-', color="r", label="Training") plt.plot(train_sizes, test_scores_mean, 'o-', color="g", label="Cross-validation") plt.xlabel("Training examples") plt.ylabel("scores") plt.show() 

 

结果:

这样我们就画出了一条学习曲线了。

to be continued...

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值