一、机器学习初识
特征工程:属于数据分析的一部分,机器学习的基础。
机器学习:选择合适的算法,从数据中学习并建立模型,对新的数据进行预测的计算及科学。
核心:算法(程序逻辑)、数据、模型。应用场景:比如垃圾邮件,短信的智能拦截。
机器学习适用:
- 对不存在已知算法解决方案的复杂问题的探索;
- 需要大量手动调整或规则处理的大型数据;
二、机器学习中的基础概念
-
标签:提供给算法包含所需要的解决方案的训练数据;
-
特征:属性加上值;
-
回归任务:通过给定的特征来预测一个目标数据;
-
训练集:用于训练模型的数据集;
-
测试集:用于测试模型精度的数据;
-
每一条数据是一个样本(x),样本对应的结果叫标签(y);
-
过拟合:在训练集表现的好,测试集不好,反之,为欠离合。
模型训练就是通过训练数据找到算法最合适的参数。