数据挖掘1基础概念

机器学习:假设用P来估计计算机程在某个任务T上的性能,若一个程序通过利用经验E在T中获得了性能改善,我们说关于T和P,该程序对E进行了学习。

适用机器学习的地方:

1、表现或目标能够增进

2、不知道把规则写下

3、一切学习从资料开始

人工智能的核心主要使用归纳、综合而不是演绎。

机器学习的三要素:数据、模型、算法


分类:目标标记为离散型数据

回归:目标标记为连续型数据


有监督学习:训练集有类别标记

无监督学习:训练集无类别标记

半监督学习:有类别标记的训练集+无标记的训练集


机器学习的步骤:

1、将数据拆分为训练集、测试集以及验证集(可以有)

2、把训练集和训练集的特征向量来训练算法

3、用学习来的算法用在测试集上来评估算法,可能要调整参数,用验证集


机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力。

精度=1-错误率=1-样本分类错误个数/总样本个数,学习器在训练集上的误差称为训练误差或经验误差。


过拟合:学习器可能把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,导致泛化性能下降。

欠拟合:学习器对训练样本一般性质尚未学好。


评估方法

留出法:将数据集划分为两个互斥的数据集,训练集与测试集。

交叉验证法:

自助法:


性能度量

错误率与精度

查准率、查全率

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值