华为云HCIA-AI学习记录003-机器学习的整体流程(上)

机器学习的整体流程

流程图

机器学习基本概念-数据集

数据集:在机器学习任务中使用的一组数据,其中的每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。
训练集:训练过程中使用的数据集,其中每个训练样本称为训练样本。从数据中学得模型的过程称为学习(训练)。
测试集:学得模型后,使用其进行预测的过程称为测试,使用的数据集称为测试集,每个样本称测试样本。
数据对于模型来说就是至关重要的,是模型能力的天花板,没有好的数据,就没有好的模型。
在这里插入图片描述
数据清理:填充缺失值,发现并消除造成数据及异常点。
清理工作量:
60% 清理和组织数据
19%收集数据集
9%在数据中发掘模式
4%优化模型
5%其他
3%重塑训练数据集
大部分的机器学习模型所处理的都是特征,特征通常是输入变量所对应的可用于模型的数值表示。
收集得到的数据需要经过预处理后才能够为算法所使用,预处理的操作主要包括以下几个部分:
数据过滤、处理数据缺失、处理可能的异常、错误或者异常值、合并多个数据源数据、数据汇总。
数据降维:简化数据属性,避免维度爆炸。
数据标准化:标准化数据来减

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值