Machine Learning 基础概念

机器学习:Machine Learning,根据经验数据,通过算法获取模型的过程;
数据集:Data Set,作为机器学习的输入,是已有的经验数据的集合;
示例:instance,或称为样本sample,单个经验数据;
属性:attribute,也可称为特征feature,其张成的空间称为属性空间attribute space、特征空间feature space,或称为输入空间input space;
特征向量:示例写成向量的形式;
学习算法:learning algorithm,学习算法根据经验数据获取模型;
假设:hypothesis,经验数据的潜在规律,所有可能潜在规律构成的集合称为假设空间hypothesis space;
真相:truth,数据服从的真实规律;
标记:label,x->y,标记空间:所有标记y构成的集合,也成输出空间;
样例:(x,y);
回归:标记y为连续值,这类问题成为回归regression问题,y为离散值为分类classification问题,y取两个值:binary-classification,分为正例positive label和反例negative label,y取多个值:multi-classification;
预测任务:根据经验数据得到x->y的映射f,通过f对其他x进行预测,这个其他x的集合称为测试集;
聚类:cluster,根据数据进行学习,获取数据就写特征,并根据特征进行分类;
监督学习:对有标记的数据进行学习成为监督学习supervise learning,对无标记的数据进行学习成为无监督学习unsupervise leanring;
泛化:generalization,模型对整个样本空间的适用能力;
分布:distribution,独立同分布:independent and identitify distribution:iid;

混淆矩阵:confuse matrix,每一行为真实类别,每一列是预测类别,对应值表示,实际类别A被预测为B的样本个数,一行中所有值相加就是此类别的总样本数目,一列中所有值相加就是预测为此类别的样本数目;

而分类问题下,2*2混淆矩阵对应如下四个值:
TP:true positive 真正类:正类被预测为正类;
FP:false positive 假正类:负类被预测为正类;
TN:true negative 真负类:负类被预测为负类;
FN:false negative 假负类:正类被预测为负类;
TPR=TP/(TP+FN):识别出的正类占所有正类的比例;
FPR=FP/(FP+TN):被错误识别成正类的负类占所有负类的比例—-负类被误报的比例;

precision:查准率:识别正确的样本占总样本比例;
recall:查全率:识别正确的样本占所有正确样本的比例;
查准率和查全率共同反应识别的效果,不同的应用对这两个指标要求不同,宁可错杀一千也不放过一个—》指的就是追求高查全率,宁可放过一千也不能冤枉一个—-指的是追求高查准率;

两个值一般有反相关关系;

引入2/F1-measure=1/P+1/R,其实F1-measure是P/R值得调和平均;
F-mesure 是P/R的加权调和平均:
1Fmeasure=11+β2(1P+β2R)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值