机器学习（一）概述

青铜葵花ZJ

已于 2024-04-02 23:57:24 修改

阅读量1.3k

点赞数 44

分类专栏：机器学习文章标签：机器学习人工智能算法

于 2024-04-02 23:56:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/clllllz_/article/details/137273022

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

研究的内容是在数据上产生“模型”的算法，即“学习算法”。利用模型对未来进行预测。

是计算机基于数据来构建概率统计模型并运用模型对数据进行分析和预测的学科。

一、分类：

1.按照是否有监督，分为监督学习和无监督学习

（1）监督学习（supervised learning ）

既给予特征信息，又返回"结果信息"的机器学习类型。

通俗的理解为大人监督小孩学习，会告诉小孩学习的内容的结果，比如会告诉他"小鸡是黄色的"。

（2）无监督学习（unsupervised learning）

只给出训练样本的特征，但不告诉结果，在没有人指导结果的情况下，也可以找到蕴含的模型。

2.按照预测值是离散还是连续，可分为分类和回归。

（1）分类（classification）

比如预测一个建筑是否合格，预测值只有两个：合格和不合格

（2）回归（regression）

比如预测房屋的价格，由于价格是连续的变量，因此是回归

二、机器学习过程

准备数据——选择算法——调参优化——性能评估

1.准备数据

包括数据获取、特征变量选取、目标变量选取、数据分割

（1）数据、数据集（示例instance、样本sample）、特征、向量的概念理解

记录对象的属性、特征信息。

特征向量：把不同的几个特征作为坐标轴，张成一个n维空间，每个对象都可以在这个空间中找到自己的坐标位置。

由于空间中的每个点都对应一个特征向量，所以我们把一个示例称为一个“特征向量（feather vector）”

维数：每个示例都有n个特征描述，即样本的维度为n。

降维：对原有特征做计算组合，构建新特征。

一个数据集有m个示例，每个示例有d个属性。

（2）准备数据

1.数据采集

根据具体问题采集相应数据

2.数据清洗

采集后的数据不意味着可以直接使用，需要清洗，解决数据缺失、错误、矛盾冲突（脏数据）的情况，保证数据质量，使数据可以使用。

3.不均衡样本处理

数据清洗后，需要对数据的正负进行均衡处理，保证正负样本数量差不多一致。

如果正样本较多，采用下采样方法处理。如有1000正样本，300负样本，从正样本中抽取300正样本，使正负样本平衡。

如果正样本远多于负样本，采用上采样方法处理，将负样本进行扩充。

4.数据类型转换

（1）连续数据离散化

离散化可以增加模型的稳定性

（2）类别数据数值化

5.数据标准化

消除数据量纲带来的影响，提高不同数据指标之间的可比性

有最大最小值标准化（离差标准化）：将指标缩放至0～1

z-score标准化：找到样本均值和方差，将特征变换为（x-均值）/方差，将数据转换为均值为0、标准差为1的正态分布。

6.特征工程

筛选更好的特征，获取更好的训练数据。

（1）特征选择

从原来的特征集合中剔除对预测结果无效或者产生负面影响的特征。解决特征冗余和噪声的影响

2.选择算法

要根据具体问题合理选择算法

（1）单一算法模型

（2）集成算法模型（模型融合）

将多个学习器结合起来使用，以获得更好的预测效果。

算法选择路径：

观察数据量大小——明确问题类型（分类/回归）：

分类：有监督或无监督

回归：维度不多，直接回归；特征维度多，先降维处理

3.调参优化

"调参"调的是超参数，目的是给算法模型找到最合适的参数，从而确定一个具体的算法模型。

🐽：欠拟合和过拟合是导致模型泛化能力不高的两种常见原因。机器学习的本质就是利用算法模型对样本数据进行拟合，从而对未知的新数据进行预测。泛化是指学得模型适用于新样本的能力。

模型欠拟合：模型学习能力较弱，学到的东西太少，无法学习到样本数据中的"一般规律"，导致泛化能力弱。在训练集和

模型过拟合：模型学习能力过强，导致样本中的"个别规律"也当成了"一般规律"，导致泛化能力较弱。

4.性能评估

评估算法模型的预测能力。

关注

44
点赞
踩
31

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

青铜葵花ZJ CSDN认证博客专家 CSDN认证企业博客

码龄2年

10: 原创

156万+: 周排名

16万+: 总排名

6156: 访问

: 等级

208: 积分

73: 粉丝

107: 获赞

3: 评论

102: 收藏

私信

关注

热门文章

分类专栏

最新评论

银行家算法
CSDN-Ada助手: 恭喜您发布了第10篇博客“银行家算法”，看来您对这个主题已经有了深入的了解。希望您能继续保持创作的热情和耐心，不断挖掘更多有趣的内容。或许您可以尝试探讨一下与银行家算法相关的实际案例或者应用场景，让读者更加深入地理解这个算法的重要性。期待您的下一篇作品！
机器学习（一）概述
CSDN-Ada助手: 恭喜作者发布了新的博客文章《机器学习（一）概述》，内容相信会为读者带来新的启发和思考。希望作者能继续保持创作的热情和耐心，深入探讨机器学习的相关知识，为读者提供更多有价值的信息。建议作者可以结合实际案例或者应用场景，让读者更直观地理解机器学习的原理和应用。期待作者的下一篇博客！
数据结构6.2——树的遍历（递归/非递归）
CSDN-Ada助手: 恭喜您在数据结构方面的博客写作又迈出了一步，标题“数据结构6.2——树的遍历（递归/非递归）”看起来很有深度，内容也一定不会让读者失望。希望您能继续保持创作的热情和耐心，不断挖掘更多有意义的主题进行分享。或许在下一篇博客中，可以探讨一下树的平衡性或者树的旋转操作等内容，让读者对树这一数据结构有更全面的了解。期待您的下一篇作品！
计算机网络（一）概述:计算机网络的性能
CSDN-Ada助手: 不知道网络技能树是否可以帮到你：https://edu.csdn.net/skill/network?utm_source=AI_act_network
汇编语言——基础知识
CSDN-Ada助手: 非常感谢用户的持续创作，这篇关于汇编语言基础知识的博客读起来很有收获。作为一个初学者，我觉得这篇文章很容易理解，也很详细。希望用户能够继续分享自己的学习经验和心得，这对于像我这样的初学者非常有帮助。同时，我也想提出一个建议，希望用户在下一篇博客中能够更深入地探讨汇编语言的应用场景，以及在实际编程中如何运用汇编语言。期待用户的下一篇作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。