机器学习001-关于机器学习概念理解

本文参考《Python机器学习》《统计学方法》

统计学方法 = 模型+策略+算法
相关概念和流程:数据预处理,模型训练,模型选择,模型评估

关于模型的概念

1.真实模型和理想模型
参数化模型和非参数化模型
概率模型和非概率模型
2.模型复杂度
3.降低模型复杂度的方法

关于策略

关于算法

关于数据预处理

机器学习最终的结果的好坏主要取决于两个因素:数据的质量和数据中心蕴含的有用信息数量。
数据预处理是进行模型训练前的数据处理操作,目的是让训练数据更利用模型的训练,构建更适合的模型。
预处理的相关技术或操作有:处理缺失数据,处理类别数据,数据集划分为训练数据和测试数据,数据特征缩放(包括标准化,归一化),特征选择(SBS),特征提取(如通过降维方式进行特征提取,包含PCA,FDA算法等),评估特征重要性(如随机森林)等。

关于数据集划分

训练数据和测试数据
类标
相似性度量

关于特征缩放

特征缩放是数据预处理中至关重要的一步。
特征缩放的目的:使样本的每个特征具有相同的重要性,消除量纲的影响。得到符合格式要求的数据,降低数据存储空间,提高算法性能。PCA,FDA, SVM, K-means, knn都需要进行特征缩放。决策树、随机森林不需要进行特征缩放就可以进行模型训练。
特征缩放最常用的两个方法:包括标准化,归一化。

3.关于特征选择和特征提取

模型评估

模型评估方法:holdout交叉验证(留一法),K折交叉验证,分层交叉验证,学习曲线与验证曲线
模特调优:模型调优就是优化模型,主要是调节参数已达到优化目的,又叫超参优化。
评价指标
混淆矩阵
准确率和召回率
ROC曲线
多类别分类评价标准

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值