机器学习(一)概述

研究的内容是在数据上产生“模型”的算法,即“学习算法”。利用模型对未来进行预测。

是计算机基于数据来构建概率统计模型并运用模型对数据进行 分析和预测的学科。

一、分类:

1.按照是否有监督,分为监督学习和无监督学习
(1)监督学习(supervised learning )

既给予特征信息,又返回"结果信息"的机器学习类型。

通俗的理解为大人监督小孩学习,会告诉小孩学习的内容的结果,比如会告诉他"小鸡是黄色的"。

(2)无监督学习(unsupervised learning)

只给出训练样本的特征,但不告诉结果,在没有人指导结果的情况下,也可以找到蕴含的模型。

2.按照预测值是离散还是连续,可分为分类和回归。
(1)分类(classification)

比如预测一个建筑是否合格,预测值只有两个:合格和不合格

(2)回归(regression)

比如预测房屋的价格,由于价格是连续的变量,因此是回归

二、机器学习过程

准备数据——选择算法——调参优化——性能评估

1.准备数据

        包括数据获取、特征变量选取、目标变量选取、数据分割

(1)数据、数据集(示例instance、样本sample)、特征、向量的概念理解

记录对象的属性、特征信息。

特征向量:把不同的几个特征作为坐标轴,张成一个n维空间,每个对象都可以在这个空间中找到自己的坐标位置。

由于空间中的每个点都对应一个特征向量,所以我们把一个示例称为一个“特征向量(feather vector)”

维数:每个示例都有n个特征描述,即样本的维度为n。

降维:对原有特征做计算组合,构建新特征。

一个数据集有m个示例,每个示例有d个属性。

(2)准备数据
1.数据采集

        根据具体问题采集相应数据

2.数据清洗

        采集后的数据不意味着可以直接使用,需要清洗,解决数据缺失、错误、矛盾冲突(脏数据)的情况,保证数据质量,使数据可以使用。

3.不均衡样本处理

        数据清洗后,需要对数据的正负进行均衡处理,保证正负样本数量差不多一致。

如果正样本较多,采用下采样方法处理。如有1000正样本,300负样本,从正样本中抽取300正样本,使正负样本平衡。

如果正样本远多于负样本,采用上采样方法处理,将负样本进行扩充。

4.数据类型转换

(1)连续数据离散化

离散化可以增加模型的稳定性

(2)类别数据数值化

5.数据标准化

消除数据量纲带来的影响,提高不同数据指标之间的可比性

有最大最小值标准化(离差标准化):将指标缩放至0~1

z-score标准化:找到样本均值和方差,将特征变换为(x-均值)/方差,将数据转换为均值为0、标准差为1的正态分布。

6.特征工程

筛选更好的特征,获取更好的训练数据。

(1)特征选择

从原来的特征集合中剔除对预测结果无效或者产生负面影响的特征。解决特征冗余和噪声的影响

2.选择算法

要根据具体问题合理选择算法

(1)单一算法模型
(2)集成算法模型(模型融合)

        将多个学习器结合起来使用,以获得更好的预测效果。

算法选择路径:

        观察数据量大小——明确问题类型(分类/回归):

        分类:有监督或无监督

        回归:维度不多,直接回归;特征维度多,先降维处理

3.调参优化

"调参"调的是超参数,目的是给算法模型找到最合适的参数,从而确定一个具体的算法模型。 

🐽:欠拟合和过拟合是导致模型泛化能力不高的两种常见原因。机器学习的本质就是利用算法模型对样本数据进行拟合,从而对未知的新数据进行预测。泛化是指学得模型适用于新样本的能力。

        模型欠拟合:模型学习能力较弱,学到的东西太少,无法学习到样本数据中的"一般规律",导致泛化能力弱。在训练集和

        模型过拟合:模型学习能力过强,导致样本中的"个别规律"也当成了"一般规律",导致泛化能力较弱。

4.性能评估

评估算法模型的预测能力。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值