特征工程数据集的提取

一、机器学习初识

特征工程:属于数据分析的一部分,机器学习的基础。

机器学习:选择合适的算法,从数据中学习并建立模型,对新的数据进行预测的计算及科学。

核心:算法(程序逻辑)、数据、模型。应用场景:比如垃圾邮件,短信的智能拦截。


机器学习适用:

  1. 对不存在已知算法解决方案的复杂问题的探索;
  2. 需要大量手动调整或规则处理的大型数据;

二、机器学习中的基础概念

  1. 标签:提供给算法包含所需要的解决方案的训练数据; 

  2. 特征:属性加上值;

  3. 回归任务:通过给定的特征来预测一个目标数据;

  4. 训练集:用于训练模型的数据集;

  5. 测试集:用于测试模型精度的数据;

  6. 每一条数据是一个样本(x),样本对应的结果叫标签(y);

  7. 过拟合:在训练集表现的好,测试集不好,反之,为欠离合。

模型训练就是通过训练数据找到算法最合适的参数。

三、训练集和测试集数据的采集

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值