Machine Learning 基础概念_machine learning truth-CSDN博客

本文链接：https://blog.csdn.net/freenl/article/details/78618390

机器学习：Machine Learning，根据经验数据，通过算法获取模型的过程；
数据集：Data Set，作为机器学习的输入，是已有的经验数据的集合；
示例：instance，或称为样本sample，单个经验数据；
属性：attribute，也可称为特征feature，其张成的空间称为属性空间attribute space、特征空间feature space，或称为输入空间input space；
特征向量：示例写成向量的形式；
学习算法：learning algorithm，学习算法根据经验数据获取模型；
假设：hypothesis，经验数据的潜在规律，所有可能潜在规律构成的集合称为假设空间hypothesis space；
真相：truth，数据服从的真实规律；
标记：label，x->y，标记空间：所有标记y构成的集合，也成输出空间；
样例：(x,y)；
回归：标记y为连续值，这类问题成为回归regression问题，y为离散值为分类classification问题，y取两个值：binary-classification，分为正例positive label和反例negative label，y取多个值：multi-classification；
预测任务：根据经验数据得到x->y的映射f，通过f对其他x进行预测，这个其他x的集合称为测试集；
聚类：cluster，根据数据进行学习，获取数据就写特征，并根据特征进行分类；
监督学习：对有标记的数据进行学习成为监督学习supervise learning，对无标记的数据进行学习成为无监督学习unsupervise leanring；
泛化：generalization，模型对整个样本空间的适用能力；
分布：distribution，独立同分布：independent and identitify distribution：iid；

混淆矩阵：confuse matrix，每一行为真实类别，每一列是预测类别，对应值表示，实际类别A被预测为B的样本个数，一行中所有值相加就是此类别的总样本数目，一列中所有值相加就是预测为此类别的样本数目；

而分类问题下，2*2混淆矩阵对应如下四个值：
TP:true positive 真正类：正类被预测为正类；
FP:false positive 假正类：负类被预测为正类；
TN:true negative 真负类：负类被预测为负类；
FN:false negative 假负类：正类被预测为负类；
TPR=TP/(TP+FN):识别出的正类占所有正类的比例；
FPR=FP/(FP+TN):被错误识别成正类的负类占所有负类的比例—-负类被误报的比例；

precision：查准率：识别正确的样本占总样本比例；
recall：查全率：识别正确的样本占所有正确样本的比例；
查准率和查全率共同反应识别的效果，不同的应用对这两个指标要求不同，宁可错杀一千也不放过一个—》指的就是追求高查全率，宁可放过一千也不能冤枉一个—-指的是追求高查准率；

两个值一般有反相关关系；

引入2/F1-measure=1/P+1/R，其实F1-measure是P/R值得调和平均；
F-mesure 是P/R的加权调和平均：
$\frac{1}{F-measure}=\frac{1}{1+\beta^{2}}(\frac{1}{P}+\frac{\beta^{2}}{R})$ ；