机器学习入门知识

m0_74099017

已于 2022-10-17 23:27:03 修改

阅读量225

点赞数

文章标签：机器学习人工智能算法

于 2022-10-16 23:38:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74099017/article/details/127348741

版权

机器学习入门知识

一、机器学习概述

1.1机器学习介绍

1.1.1机器学习的特点

（1）机器学习和传统编程

传统编程其实是基于规则和数据的，目的是快速得到一个答案；
机机器学习其实是从已知的数据和答案中寻找出来某种规则。
在这里插入图片描述
!](https://img-blog.csdnimg.cn/aa169ca3b5ee47099489a4e8fe223d96.jpeg)

总结：以计算机为工具平台，以数据研究为对象，以学习方法为中心，是概率论、线性代数、信息论、最优化理论和计算机科学等多个领域的交叉学科。
（2）研究的三个应用方面

机器学习方法：只在开发新的方法
机器学习理论：旨在探求机器学习方法的有效性和效率
机器学习应用：考虑将机器学习模型应用到实际问题中去，解决实际业务问题

1.1.2机器学习的对象

机器学习对象是数据，即从数据出发，提取数据的特征，抽象出数据模型，发现数据中的规律，再回到对新的数据的分析和预测中去。
在这里插入图片描述

1.1.3机器学习的应用

（1）应用前景广泛
在这里插入图片描述
（2）机器学习的人工智能、深度学习的关系

1.2机器学习分类

1.2.1按任务类型分类

1

回归问题
利用数理统计中的回归分析技术，确定两种变量间的依赖关系
分类问题
常见的一类任务|将不同形式的数据分开
聚类问题
聚类问题又称群分析，目标将样本划分为紧密关系的子集或簇
降维分析
采用某种映射的方法，将原高维空间中的数据点映射到低维空间
降维模型有组成分析（PCA）和线性判断分析(LDA)等
通过模型来达到消除冗余信息、降噪和减少特征量的目的

1.2.2按学习方法分类

有监督学习
基于一组带有结果标注的样本训练模型，然后用该模型对新的未知结果的样本做出预测。
常见的学习任务是分类和回归。
无监督学习
训练样本结果是没有被标记注的，即训练的结果标签是未知的。
常见的是聚类和降维。
强化学习
又称再励学习、评价学习，是从动物学习、参数扰动自适应控制等理论发展而来的。它把学习过程看作一种试探评价过程。

1.2.3生成模型与判别模型

（1）生成模型
在这里插入图片描述

在这里插入图片描述

（2）判别模型
在这里插入图片描述

1.3机器学习方法三要素

在这里插入图片描述

1.3.1模型

在这里插入图片描述

1.3.2策略

在这里插入图片描述

1.2.3算法

在这里插入图片描述

梯度下降法
牛顿法
拟牛顿法

二、机器学习工程实践

2.1模型评估指标

2.1.1回归模型的评估指标

绝对误差
绝对误差即预测点与真实点之间距离之差的绝对平均值
均方误差
均方误差即预测点与实际点之间距离之差平方和的均值

2.1.2分类模型的评估指标

准确率（accuracy）
精度（precision）
召回率（recall）
F1值
ROC曲线

6.AUC

7.混淆矩阵
在这里插入图片描述

2.1.3聚类模型的评估指标

1**. 外部指标**（External Index）
（1）Jaccard系数
（2）FM系数
（3）Rand系数
(4)标准化互信息
2.内部指标（Internal Index）
（1）DB系数
（2）Dunn系数
3.轮廓系数

2.1.4常用的距离公式

曼哈顿距离
欧式距离
闵可夫斯基距离
夹角余弦
汉明距离
杰卡德森相似系数
杰卡德距离

2.2模型复杂度度量

2.2.1偏差与方差

一般来说，偏差和方差是有冲突的，偏差随着模型的复杂度增加而降低，而方差随着模型的复杂度增加而增加。方差和偏差加起来最优的点就是模型错误率最小的点，对应的位置就是最佳模型复杂度。

2.2.2过拟合与正则化

1.过拟合：指对已知数据预测的很好，但对未知数据预测的很差。
2.欠拟合：对未知数据预测范围扩大，比如树叶绿色只是其必要不充分条件，欠拟合误将绿色的都识别成树叶。
3.经验风险与结构风险
奥卡姆剃须刀：再能够较好的匹配已知数据得前提下，模型越简单越好
4.正则化

2.3特征工程与模型调优

2.3.1数据挖掘项目流程

业务理解
数据分析
特征工程
模型选择
模型评估
项目落地

2.3.2特征工程

1.数据清洗
直接删除缺失数据
固定值填充
均值/中位数填充
相邻值填充
模型填充
2.特征处理
归一化
标准化
离散化
one~hot编码
3.特征交互
4.特征映射

2.3.3模型选择与模型调优

1.模型选择
数据分析
交叉验证
2模型调优
网格搜索寻优
随机搜索寻优

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
机器学习入门知识

瞎写
复制链接

扫一扫

m0_74099017 CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

160万+: 周排名

99万+: 总排名

4495: 访问

: 等级

50: 积分

3: 粉丝

0: 获赞

7: 评论

1: 收藏

私信

关注

热门文章

最新评论

Web从入门到放弃（2）
m0_74099017: 在国内encharts更流行，d3国内用的不是很多，个人感觉encharts在功能上更强大一些
Web从入门到放弃（2）
CSDN-Ada助手: d3.js在可视化上和echart有什么优劣？
Web从入门到放弃
m0_74099017: 好的，正在学习中
机器学习入门知识
CSDN-Ada助手: 一些小的改进建议：(1)使用更多的站内链接；(2)使用标准目录。
Web从入门到放弃
CSDN-Ada助手: 你的文章质量不错，值得学习！但还有一点小瑕疵，具体如下：(1)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(2)使用更多的站内链接；(3)使用标准目录。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。