研究的内容是在数据上产生“模型”的算法,即“学习算法”。利用模型对未来进行预测。
是计算机基于数据来构建概率统计模型并运用模型对数据进行 分析和预测的学科。
一、分类:
1.按照是否有监督,分为监督学习和无监督学习
(1)监督学习(supervised learning )
既给予特征信息,又返回"结果信息"的机器学习类型。
通俗的理解为大人监督小孩学习,会告诉小孩学习的内容的结果,比如会告诉他"小鸡是黄色的"。
(2)无监督学习(unsupervised learning)
只给出训练样本的特征,但不告诉结果,在没有人指导结果的情况下,也可以找到蕴含的模型。
2.按照预测值是离散还是连续,可分为分类和回归。
(1)分类(classification)
比如预测一个建筑是否合格,预测值只有两个:合格和不合格
(2)回归(regression)
比如预测房屋的价格,由于价格是连续的变量,因此是回归
二、机器学习过程
准备数据——选择算法——调参优化——性能评估
1.准备数据
包括数据获取、特征变量选取、目标变量选取、数据分割
(1)数据、数据集(示例instance、样本sample)、特征、向量的概念理解
记录对象的属性、特征信息。
特征向量:把不同的几个特征作为坐标轴,张成一个n维空间,每个对象都可以在这个空间中找到自己的坐标位置。
由于空间中的每个点都对应一个特征向量,所以我们把一个示例称为一个“特征向量(feather vector)”
维数:每个示例都有n个特征描述,即样本的维度为n。
降维:对原有特征做计算组合,构建新特征。
一个数据集有m个示例,每个示例有d个属性。
(2)准备数据
1.数据采集
根据具体问题采集相应数据
2.数据清洗
采集后的数据不意味着可以直接使用,需要清洗,解决数据缺失、错误、矛盾冲突(脏数据)的情况,保证数据质量,使数据可以使用。
3.不均衡样本处理
数据清洗后,需要对数据的正负进行均衡处理,保证正负样本数量差不多一致。
如果正样本较多,采用下采样方法处理。如有1000正样本,300负样本,从正样本中抽取300正样本,使正负样本平衡。
如果正样本远多于负样本,采用上采样方法处理,将负样本进行扩充。
4.数据类型转换
(1)连续数据离散化
离散化可以增加模型的稳定性
(2)类别数据数值化
5.数据标准化
消除数据量纲带来的影响,提高不同数据指标之间的可比性
有最大最小值标准化(离差标准化):将指标缩放至0~1
z-score标准化:找到样本均值和方差,将特征变换为(x-均值)/方差,将数据转换为均值为0、标准差为1的正态分布。
6.特征工程
筛选更好的特征,获取更好的训练数据。
(1)特征选择
从原来的特征集合中剔除对预测结果无效或者产生负面影响的特征。解决特征冗余和噪声的影响
2.选择算法
要根据具体问题合理选择算法
(1)单一算法模型
(2)集成算法模型(模型融合)
将多个学习器结合起来使用,以获得更好的预测效果。
算法选择路径:
观察数据量大小——明确问题类型(分类/回归):
分类:有监督或无监督
回归:维度不多,直接回归;特征维度多,先降维处理
3.调参优化
"调参"调的是超参数,目的是给算法模型找到最合适的参数,从而确定一个具体的算法模型。
🐽:欠拟合和过拟合是导致模型泛化能力不高的两种常见原因。机器学习的本质就是利用算法模型对样本数据进行拟合,从而对未知的新数据进行预测。泛化是指学得模型适用于新样本的能力。
模型欠拟合:模型学习能力较弱,学到的东西太少,无法学习到样本数据中的"一般规律",导致泛化能力弱。在训练集和
模型过拟合:模型学习能力过强,导致样本中的"个别规律"也当成了"一般规律",导致泛化能力较弱。
4.性能评估
评估算法模型的预测能力。