机器学习入门知识

机器学习入门知识

一、机器学习概述

1.1机器学习介绍

1.1.1机器学习的特点
(1)机器学习和传统编程

传统编程其实是基于规则和数据的,目的是快速得到一个答案;
机机器学习其实是从已知的数据和答案中寻找出来某种规则。
在这里插入图片描述
!](https://img-blog.csdnimg.cn/aa169ca3b5ee47099489a4e8fe223d96.jpeg)
在这里插入图片描述
总结:以计算机为工具平台,以数据研究为对象,以学习方法为中心,是概率论、线性代数、信息论、最优化理论和计算机科学等多个领域的交叉学科。
(2)研究的三个应用方面

  1. 机器学习方法:只在开发新的方法
  2. 机器学习理论:旨在探求机器学习方法的有效性和效率
  3. 机器学习应用:考虑将机器学习模型应用到实际问题中去,解决实际业务问题
1.1.2机器学习的对象

机器学习对象是数据,即从数据出发,提取数据的特征,抽象出数据模型,发现数据中的规律,再回到对新的数据的分析和预测中去。
在这里插入图片描述

1.1.3机器学习的应用

(1)应用前景广泛
在这里插入图片描述
(2)机器学习的人工智能、深度学习的关系
在这里插入图片描述

1.2机器学习分类

1.2.1按任务类型分类

1

  1. 回归问题
    利用数理统计中的回归分析技术 ,确定两种变量间的依赖关系
  2. 分类问题
    常见的一类任务|将不同形式的数据分开
  3. 聚类问题
    聚类问题又称群分析,目标将样本划分为紧密关系的子集或簇
  4. 降维分析
    采用某种映射的方法,将原高维空间中的数据点映射到低维空间
    降维模型有组成分析(PCA)和线性判断分析(LDA)等
    通过模型来达到消除冗余信息、降噪和减少特征量的目的
    在这里插入图片描述
1.2.2按学习方法分类
  1. 有监督学习
    基于一组带有结果标注的样本训练模型,然后用该模型对新的未知结果的样本做出预测。
    常见的学习任务是分类回归
  2. 无监督学习
    训练样本结果是没有被标记注的,即训练的结果标签是未知的。
    常见的是聚类降维
  3. 强化学习
    又称再励学习、评价学习,是从动物学习、参数扰动自适应控制等理论发展而来的。它把学习过程看作一种试探评价过程。
    在这里插入图片描述
1.2.3生成模型与判别模型

(1)生成模型
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

(2)判别模型
在这里插入图片描述

1.3机器学习方法三要素

在这里插入图片描述

1.3.1模型

在这里插入图片描述

1.3.2策略

在这里插入图片描述
在这里插入图片描述

1.2.3算法

在这里插入图片描述

  1. 梯度下降法
  2. 牛顿法
  3. 拟牛顿法

二、机器学习工程实践

2.1模型评估指标

2.1.1回归模型的评估指标
  1. 绝对误差
    绝对误差即预测点与真实点之间距离之差的绝对平均值
  2. 均方误差
    均方误差即预测点与实际点之间距离之差平方和的均值
2.1.2分类模型的评估指标
  1. 准确率(accuracy)
    在这里插入图片描述

  2. 精度(precision)
    在这里插入图片描述

  3. 召回率(recall)
    在这里插入图片描述

  4. F1值
    在这里插入图片描述
    在这里插入图片描述

  5. ROC曲线
    在这里插入图片描述
    6.AUC
    在这里插入图片描述

7.混淆矩阵
在这里插入图片描述

2.1.3聚类模型的评估指标

1**. 外部指标**(External Index)
(1)Jaccard系数
(2)FM系数
(3)Rand系数
(4)标准化互信息
2.内部指标 (Internal Index)
(1)DB系数
(2)Dunn系数
3.轮廓系数

2.1.4常用的距离公式
  1. 曼哈顿距离
  2. 欧式距离
  3. 闵可夫斯基距离
  4. 夹角余弦
  5. 汉明距离
  6. 杰卡德森相似系数
  7. 杰卡德距离

2.2模型复杂度度量

2.2.1偏差与方差

一般来说,偏差和方差是有冲突的,偏差随着模型的复杂度增加而降低,而方差随着模型的复杂度增加而增加。方差和偏差加起来最优的点就是模型错误率最小的点,对应的位置就是最佳模型复杂度。

2.2.2过拟合与正则化

1.过拟合:指对已知数据预测的很好,但对未知数据预测的很差。
2.欠拟合:对未知数据预测范围扩大,比如树叶绿色只是其必要不充分条件,欠拟合误将绿色的都识别成树叶。
3.经验风险与结构风险
奥卡姆剃须刀:再能够较好的匹配已知数据得前提下,模型越简单越好
4.正则化

2.3特征工程与模型调优

2.3.1数据挖掘项目流程
  • 业务理解
  • 数据分析
  • 特征工程
  • 模型选择
  • 模型评估
  • 项目落地
2.3.2特征工程

1.数据清洗
直接删除缺失数据
固定值填充
均值/中位数填充
相邻值填充
模型填充
2.特征处理
归一化
标准化
离散化
one~hot编码
3.特征交互
4.特征映射

2.3.3模型选择与模型调优

1.模型选择
数据分析
交叉验证
2模型调优
网格搜索寻优
随机搜索寻优

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值