机器学习简介

最新推荐文章于 2024-10-08 11:42:50 发布

nj_hgr

最新推荐文章于 2024-10-08 11:42:50 发布

阅读量155

点赞数

分类专栏：机器学习文章标签：大数据机器学习算法

本文链接：https://blog.csdn.net/weixin_42059327/article/details/108811602

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习常见算法划分
（1）分类：KNN，决策树，贝叶斯，LR，SVM，神经网络,adaboost等
（2）回归：线性回归等
（3）聚类：k-means,层次聚类等
（4）降维：PCA,SVD等
（5）推荐：关联规则,协同过滤算法等
模型评估与选择
Ø在用算法解决实际任务需求时，可以有很多种算法做选择，获得不同的模型，或者由同一个学习算法的不同参数选择，得到不同的模型，选择哪一个算法，选择哪一个参数呢？这就是机器学习算法中的模型选择问题。
Ø可以通过测试来评估学习器（模型）的泛化误差，进而选择好的模型。那么需要有一个测试集作为新样本来测试学习器（模型）的预测能力，然后计算测试集上的测试误差，作为对泛化误差的近似。
要求：
1.训练集和测试集来自同一个分布的数据样本；
2.测试样本尽量不出现在训练集中。
机器学习若干概念
1、相关误差定义
Ø分类错误率error rate：分类错误的样本数占样本总数的比例，比如m个样本中有n个样本被分错，则错误率为n/m；
Ø分类精度accuracy：分类正确的样本数占样本总数的比例，即accuracy=1- error rate；
Ø误差error：分类器（模型）预测的结果与真实结果之间的差异；
Ø经验误差empirical error:分类器（模型）在训练数据集上的误差，又称为训练误差training error；
2、泛化能力
泛化能力指由学习方法得到的模型对未知数据的预测能力。
概括地说，所谓泛化能力（generalization ability）是指机器学习算法对新样本的适应能力。学习的目的是学到隐含在数据背后的规律，对具有同一规律
的学习集(训练数据集)以外的数据，经过训练的算法也能给出合适的输出，该能力称为泛化能力。
通常希望经训练样本训练的模型具有较强的泛化能力，也就是对新输入数据给出合理预测结果的能力。算法的性能主要用它的泛化能力来衡量。
泛化误差generalization error:在新样本上的误差。
3、过拟合
通过训练样本数据学习得到的分类器（模型）把训练数据学得太好了，很可能把训练样本自身的一些特点当做所有潜在样本都会具有的一般性质，而对未知样本的预测结果很差的现象，称为过拟合。这样就会导致泛化能力的下降。
与过拟合对应的是欠拟合，就是对训练样本学习的不好。
导致过拟合的因素很多，通常过拟合不能避免，只能尽量减小。
机器学习应用
在这里插入图片描述