机器学习基本概念及算法
1、概念:计算机从数据中学习规律和模式,从而对新数据做出预测。
2、应用:金融、生物信息、医疗、能源、交通、互联网等行业,模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理、统计学习、电商推荐等场景
3、基本流程
“数据决定模型效果的上限,不同算法只是帮你逼近上限”
* 数据预处理:数据采样、数据切分、特征抽取、特征选择、降维、幅度缩放(连续性数值)、
* 模型学习:超参选择、交叉验证、结果评估、模型选择、模型训练
* 模型评估:分类、回归、排序评估
* 模型上线:新样本预测
4、常用评估方法:
“机器学习目标:得到泛化能力强(错误率低、精度高)的模型”
* 留出法:将数据集分为训练集和测试集。(数据分布一致性、多次重复划分、测试集大小在1/5-1/3之间)
* K折交叉验证法:也叫留一法
* 自助法:也叫有放回采样,包外估计即使用约36.8%未出现的样本作为测试集
5、常用评估标准度量标准
“性能度量,衡量模型的泛化能力的数值标准”
* 分类问题
错误率:
精度:
二分类混淆矩阵:(F1为P、R的几何平均值,β为加权数)
AUC:多个阈值下得到的多个混淆矩阵,计算其tpr和fpr值得到ROC曲线
* 回归问题
6、常用机器学习算法
目标值 | 无监督学习 | 监督学习 |
---|---|---|
连续型 |
|
|
离散型 |
|
|