机器学习
哈哈你个大锤子
将喜欢的东西留着自己身边
展开
-
机器学习--偏差/方差权衡
统计学和机器学习的重要理论成果是以下事实:模型的泛化误差可以表示为三个非常不同的误差和: 偏差: 这部分泛化误差的原因在于错误的假设,比如假设数据是线性的,而实际上是二次的。 高偏差模型最有可能欠拟合训练数据 方差: 这部分是由于模型对训练数据的细微变化过于敏感。 具有许多自由度的模型(例如高阶多项式模型)可能具有较高的方差,因此可能过拟合训练数据 不可避免误差: 这部分误差是因为数据本身的噪声所致。 减少这部分误差的唯一方法原创 2021-05-30 12:49:45 · 344 阅读 · 0 评论 -
机器学习实战--二分类(MNIST数据集)
from sklearn.datasets import fetch_mldatamnist = fetch_mldata('MNIST original')Scikit-Learn 加载数据集通常具有类似于字典的结构,包括:DESCR:描述数据集data:包含一个数组,每个实例为一行,每个特征为一列target:包含一个带有标记的数组X,y = mnist["data"], mnist["target"]Xyarray([0., 0., 0., ..., 9., 9., 9.])原创 2021-05-25 00:04:21 · 4093 阅读 · 0 评论 -
混淆矩阵介绍
混淆矩阵定义:混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式, 用n行n列的矩阵形式来表示。 Precision:查准率(Precision),又叫准确率。 查准率是针对我们预测结果而言的,它表示的是预测为正的样例中有多少是真正的正样例 Recall: 查全率(Recall),又叫召回率。 查全率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确 F1 Score:F1度量Accurac原创 2021-05-23 20:00:17 · 2353 阅读 · 0 评论 -
sklearn--自己实现交叉验证
# 分层抽样from sklearn.model_selection import StratifiedKFold from sklearn.base import cloneskfolds = StratifiedKFold(n_splits=3,random_state=42)for train_index,test_index in skfolds.split(Xtrain,y_train_5): clone_clf = clone(sgd_clf) # 分类器副本 Xt原创 2021-05-23 19:15:31 · 393 阅读 · 0 评论 -
西瓜书学习笔记--基本术语
基本术语西瓜数据集样例:(色泽=青绿;根蒂=蜷曲;敲声=浊响)(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)(色泽=浅白;根蒂=硬挺;敲声=清脆)…数据集: 这组记录的集合称为数据集示例或样本:其中每条记录是关于一个事件或对象的描述,称为一个示例或样本,也成为特征向量属性或特征:例如”色泽“,”根蒂“,”敲声“称为属性或特征属性值:属性上的取值属性空间:属性张成的空间称为属性空间、样本空间或输入空间 一般地,令D={x1,x2,…,xm}表示包含原创 2021-05-19 21:16:04 · 445 阅读 · 0 评论