机器学习简介

机器学习常见算法划分
(1)分类:KNN,决策树,贝叶斯,LR,SVM,神经网络,adaboost等
(2)回归:线性回归等
(3)聚类:k-means,层次聚类等
(4)降维:PCA,SVD等
(5)推荐:关联规则,协同过滤算法等
模型评估与选择
Ø在用算法解决实际任务需求时,可以有很多种算法做选择,获得不同的模型,或者由同一个学习算法的不同参数选择,得到不同的模型,选择哪一个算法,选择哪一个参数呢?这就是机器学习算法中的模型选择问题。
Ø可以通过测试来评估学习器(模型)的泛化误差,进而选择好的模型。那么需要有一个测试集作为新样本来测试学习器(模型)的预测能力,然后计算测试集上的测试误差,作为对泛化误差的近似。
要求:
1.训练集和测试集来自同一个分布的数据样本;
2.测试样本尽量不出现在训练集中。
机器学习若干概念
1、相关误差定义
Ø分类错误率error rate:分类错误的样本数占样本总数的比例,比如m个样本中有n个样本被分错,则错误率为n/m;
Ø分类精度accuracy:分类正确的样本数占样本总数的比例,即accuracy=1- error rate;
Ø误差error:分类器(模型)预测的结果与真实结果之间的差异;
Ø经验误差empirical error:分类器(模型)在训练数据集上的误差,又称为训练误差training error;
2、泛化能力
泛化能力指由学习方法得到的模型对未知数据的预测能力。
概括地说,所谓泛化能力(generalization ability)是指机器学习算法对新样本的适应能力。学习的目的是学到隐含在数据背后的规律,对具有同一规律
的学习集(训练数据集)以外的数据,经过训练的算法也能给出合适的输出,该能力称为泛化能力。
通常希望经训练样本训练的模型具有较强的泛化能力,也就是对新输入数据给出合理预测结果的能力。算法的性能主要用它的泛化能力来衡量。
泛化误差generalization error:在新样本上的误差。
3、过拟合
通过训练样本数据学习得到的分类器(模型)把训练数据学得太好了,很可能把训练样本自身的一些特点当做所有潜在样本都会具有的一般性质,而对未知样本的预测结果很差的现象,称为过拟合。这样就会导致泛化能力的下降。
与过拟合对应的是欠拟合,就是对训练样本学习的不好。
导致过拟合的因素很多,通常过拟合不能避免,只能尽量减小。
机器学习应用
在这里插入图片描述

机器学习常用到的实例有:
垃圾邮件检测;
信用卡欺诈检测;
手写字/语音/人脸/车牌识别;
购物/喜好推荐(网购,音乐,视频,餐饮,求职网,相亲网,社交网)
搜索引擎;
广告投放;
医学分析;
股票交易;
客户流失预测;
互联网金融风险控制。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值