机器学习基础知识

最新推荐文章于 2021-11-16 10:15:35 发布

kwunkau

最新推荐文章于 2021-11-16 10:15:35 发布

阅读量432

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_35906568/article/details/103115313

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、机器学习基本步骤

收集数据： 无论是来自excel, access, text files等文件的原始数据，这一步（收集过去的数据）是未来学习的基础。相关数据的种类、密度和数量越大，机器的学习前景就越好
准备数据： 任何分析过程都依赖于所使用数据的质量。我们需要花时间来确定数据的质量，然后采取措施来解决缺失数据和异常值的处理等问题。探索性分析可能是研究数据细微差别的一种方法，从而迅速提高数据的营养含量。
训练模型： 这一步包括选择合适的算法并以模型的形式表示数据。清洗后的数据分为训练和测试两部分（比例视前提而定）。第一部分（训练数据）用于开发模型。第二部分（测试数据），用作参考
评估模型： 为了测试准确性，使用了数据的第二部分(holdout / test data)。这一步根据结果确定算法选择的准确度。检验模型准确性的更好的测试方法是查看其在模型构建过程中根本没有用到的数据上的性能
提高性能： 这一步可能包括选择一个完全不同的模型，或者引入更多的变量来提高效率。这就是为什么需要花费大量的时间来收集和准备数据

针对以上步骤重点学习训练模型、评估模型
数据拆分：训练数据集&测试数据集
评价分类结果：精准度、混淆矩阵、精准率、召回率、F1 Score、ROC曲线等
评价回归结果：MSE、RMSE、MAE、R Squared

二、训练模型

1. 训练集（training set）

用于模型拟合的数据样本，每个变量前边的参数都是由训练集估计出来的，这里我们要区分一个概念，参数和超参数：
参数(parameter) 是依赖于训练集的，对于同一份数据的同一个模型，参数是唯一的
超参数(hyperparameter) 是不依赖与训练集合的，他是我们人为指定的，可以取任意合理值的
所谓超参数，就是在机器学习算法模型执行之前需要指定的参数。（调参调的就是超参数），回顾KNN算法时，需传一个默认的k值。存在另一个超参数：权重

2. 验证集（validation)

模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估

3. 测试集（test set）

用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据

4.区别

一个形象的比喻：

训练集-----------学生的课本；学生根据课本里的内容来掌握知识
验证集------------作业，通过作业可以知道不同学生学习情况、进步的速度快慢
测试集-----------考试，考的题是平常都没有见过，考察学生举一反三的能力

使用没有超参数的模型，如古典的线性回归模型，就不需要验证集，可以采取7:3的比例随机划分训练集和测试集
需要验证集的模型，如随机森林模型，可以采取6:2:2的比例

三、评估模型

1. 分类算法评价

介绍模型的评估指标：准确率（Accuracy）、精确率（Precision）、召回率(Recall)

	预测值0（健康）	预测值1（生病）
真实值0（健康）	9978（TN）	12（FP）
真实值1（生病）	2（FN）	8（TP）

准确率： 实际是预测正确的样本占所有预测的全部样本比例
准确率计算公式： $\color{red}{Accuracy= (TP+TN)/(TP+FP+TN+FN))}$
局限性： 对于极度偏斜(Skewed Data)的数据，只使用分类准确度是不能衡量。例如实际正例：实际反例=9:1，即使反例全分错了，正例分对了90%，整体就可以达到81%的准确率
精准率（查准率）： 预测值为1，且预测对了的比例，即：我们关注的那个事件，预测的有多准
精准率（查准率）计算公式： $\color{red}{Precision = TP/(TP+FP)}$
召回率（查全率）： 所有真实值为1的数据中，预测对了的个数，即：我们关注的那个事件真实的发生情况下，我们成功预测的比例是多少

召回率（查全率）计算公式： $\color{red}{Recall = TP/(TP+FN))}$

2. 回归算法评价

介绍模型的评估指标：均方误差（MSE）、均方根误差（RMSE）、平均绝对误差（MAE）

均方误差： 真实值与预测值的差值的平方然后求和平均。通过平方的形式便于求导，所以常被用作线性回归的损失函数
均方根误差： 衡量观测值与真实值之间的偏差。常用来作为机器学习模型预测结果衡量的标准。使用均方误差MSE收到量纲的影响。例如在衡量房产时，y的单位是（万元），那么衡量标准得到的结果是（万元平方）。为了解决量纲的问题，可以将其开方（为了解决方差的量纲问题，将其开方得到平方差）
平均绝对误差： 绝对误差的平均值。可以更好地反映预测值误差的实际情况。