机器学习概述——学习笔记Day1

堂吉诃德_jelly

已于 2024-04-25 08:19:06 修改

阅读量1.4k

点赞数 49

文章标签：机器学习学习笔记

于 2024-04-22 17:29:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74206611/article/details/138070046

版权

目录

1. 人工智能三大概念——人工智能（AI）、机器学习（ML）和深度学习（DL）

1.1 人工智能

1.2 机器学习

1.3 深度学习

1.4 三者之间的关系

1.5 算法的两种学习方式

2. 机器学习的应用领域和发展史

2.1 机器学习的应用领域

2.2 机器学习发展史

2.3 人工智能发展三要素

3. 机器学习常用术语——样本、特征、标签、训练集和测试集

3.1 样本,特征，标签

3.2 数据集划分

4. 机器学习算法分类——有监督学习、无监督学习、半监督、强化学习

4.1 有监督学习

有监督学习的分类问题 & 回归问题

4.2 无监督学习

4.3 半监督学习

4.4 强化学习——机器学习算法分类

5. 机器学习建模流程

5.1 机器学习建模的一般步骤

5.2 有监督学习模型训练和模型预测

6. 特征工程概念入门

6.1 特征工程概念

6.2 涉及内容

7. 模型拟合问题

7.1 过拟合欠拟合

7.2过拟合欠拟合产生的原因

8. 机器学习开发环境

1. 人工智能三大概念——人工智能（AI）、机器学习（ML）和深度学习（DL）

1.1 人工智能

仿智，使用计算机来模拟或者代替人类

• Artificial Intelligence 人工智能

• AI is the field that studies the synthesis and analysis of

computational agents that act intelligently

• AI is to use computers to analog and instead of human brain

1.2 机器学习

机器自动学习，不是人为规则编程

• Machine Learning 机器学习

• Field of study that gives computers the ability to learn without

being explicitly programmed

1.3 深度学习

• 深度学习 (DL, Deep Learning) : ，也叫深度神经网络，大脑仿生，设计一层一层的神经元模拟万事万物

1.4 三者之间的关系

机器学习是实现人工智能的一种途径

深度学习是机器学习的一种方法

1.5 算法的两种学习方式

• 基于规则的学习

• 基于模型的学习

2. 机器学习的应用领域和发展史

2.1 机器学习的应用领域

• 计算机视觉CV ：对人看到的东西进行理解

• 自然语言处理 ：对人交流的东西进行理解

• 数据挖掘和数据分析 ：也属于人工智能的范畴

图像识别和分类——人脸识别、图像检索、物体识别等。
自然语言处理——机器翻译、文本分类、语音识别等。
推荐系统——电商、社交媒体等平台中的商品推荐、内容推荐等。
医疗智能诊断-——癌症诊断、疾病预测等。
金融风控——欺诈检测、信用评估等。
工业制造——质量控制、异常检测等。
无人驾驶——视觉感知、路况识别等。
游戏智能——游戏AI、机器人足球等。
网络安全——恶意代码检测、网络攻击识别等。
环境保护——气象预测、大气污染监测等。

2.2 机器学习发展史

• 1956年 人工智能元年

• 2012 年计算机视觉深度神经网络方法研究兴起

• 2017 年自然语言处理应用大幕拉开

• 2022 年 chatGPT 的出现，引起 AIGC 的发展

2.3 人工智能发展三要素

数据， 算法，算力

• CPU ：主要适合I\O密集型的任务

• GPU ：主要适合计算密集型任务

• TPU ：专门针对大型网络训练而设计的一款处理器

3. 机器学习常用术语——样本、特征、标签、训练集和测试集

3.1 样本,特征，标签

• 样本(sample) ：一行数据就是一个样本

• 特征(feature) ：一列数据一个特征，有时也被称为属性

• 标签/目标(label/target) ：模型要预测的那一列数据。

3.2 数据集划分

• 数据集dataset ：多个样本组成数据集，训练集、测试集一般划分比例7:3 ~ 8:2

• 训练集(training set) ：用来训练模型（ model ）的数据集

• 测试集(testing set) ：用来测试模型的数据集

4. 机器学习算法分类——有监督学习、无监督学习、半监督、强化学习

4.1 有监督学习

◆ 定义：输入数据是由输入特征值和目标值所组成，即输入的训练数据有标签的

◆ 数据集：需要标注数据的标签/目标值

有监督学习的分类问题 & 回归问题

4.2 无监督学习

◆ 定义：输入数据没有被标记，即样本数据类别未知， 没有标签 ，根据样本间的相似性，对样本集聚类，以发现事物内部结构及相互关系。

◆ 数据集：不需要标注数据

无监

督学习

4.3 半监督学习

工作原理：

1 让专家标注少量数据，利用已经标记的数据（也就是带有类标签）训练出一个模型

2 再利用该模型去套用未标记的数据

3 通过询问领域专家分类结果与模型分类结果做对比，从而对模型做进一步改善和提高

好处：

半监督学习方式可大幅降低标记成本

4.4 强化学习——机器学习算法分类

1 强化学习（Reinforcement Learning）：机器学习的一个重要分支

2 应用场景：里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理：通过构建四个要素：agent，环境状态，行动，奖励，

agent根据环境状态进行行动获得最多的累计奖励。

4.5 总结

5. 机器学习建模流程

5.1 机器学习建模的一般步骤

• 获取数据 ：搜集与完成机器学习任务相关的数据集

• 数据基本处理 ： 数据集中异常值 , 缺失值的处理等

• 特征工程 ：对数据特征进行提取、转成向量，让模型达到最好的效果

• 机器学习 (模型训练)：选择合适的算法对模型进行训练

• 根据不同的任务来选中不同的算法；有监督学习,无监督学习,半监督学

习,强化学习

• 模型评估：评估效果好上线服务,评估效果不好则重复上述步骤

在整个建模流程中，数据基本处理、特征工程一般是耗时、耗精力最多的

5.2 有监督学习模型训练和模型预测

6. 特征工程概念入门

6.1 特征工程概念

利用专业背景知识和技巧处理数据，让机器学习算法效果最好。这个过程就是特征工程

Coming up with features is difficult, time-consuming, requires expert knowledge.

“Applied machine learning” is basically feature engineering. ”

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

6.2 涉及内容

1. 特征提取

原始数据中提取与任务相关的特征，构成特征向量

2.特征预处理

特征对模型产生影响；因量纲问题，有些特征对模型影响大、有些影响小

一般是做数据的标准化、归一化等工作

3.特征降维

将原始数据的维度降低，叫做特征降维，一般会对原始数据产生影响

4.特征选择

原始数据特征很多，与任务相关是其中一个特征集合子集，不会改变原数据

5.特征组合

把多个的特征合并成一个特征。利用乘法或加法来完成

7. 模型拟合问题

7.1 过拟合欠拟合

• 拟合：用来表示模型对样本分布点的模拟情况

•过拟合：模型在训练集上表现很好、在测试集表现很差

• 欠拟合：模型在训练集上表现很差、在测试集表现也很差

7.2过拟合欠拟合产生的原因

• 欠拟合产生的原因：模型过于简单

• 过拟合产生的原因：模型太过于复杂、数据不纯、训练数据太少

7.3 泛化

• 泛化 Generalization ：具体的、个别的扩大为一般的能力

• 奥卡姆剃刀原则：给定两个具有相同泛化误差的模型，倾向选择较简单的模

型

8. 机器学习开发环境

基于 Python 的 scikit-learn 库

1. 简单高效的数据挖掘和数据分析工具

2. 可供大家使用，可在各种环境中重复使用

3. 建立在 NumPy ， SciPy 和 matplotlib 上

4. 开源，可商业使用 - 获取 BSD 许可证

安装方法：

pip install scikit-learn

官网：

https://scikit-learn.org/stable/

堂吉诃德_jelly

关注

49
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
机器学习概述——学习笔记Day1

根据样本间的相似性，对样本集聚类，以发现事物内部结构及相互关系。3 基本原理：通过构建四个要素：agent，环境状态，行动，奖励，2022年，chatGPT的出现，进入到大模型AIGC发展的阶段。分类结果与模型分类结果做对比，从而对模型做进一步改善和提高。，利用已经标记的数据（也就是带有类标签）训练出一个模型。图像识别，无人驾驶，智能翻译，医疗智能诊断，数据挖掘。定义：输入数据是由输入特征值和目标值所组成，即。输入数据没有被标记，即样本数据类别未知，计算机视觉深度神经网络方法研究兴起。
复制链接

扫一扫

堂吉诃德_jelly CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

138万+: 周排名

11万+: 总排名

4692: 访问

: 等级

179: 积分

79: 粉丝

119: 获赞

3: 评论

77: 收藏

私信

关注

热门文章

最新评论

基于SKlearn鸢尾花数据的处理-Day3
CSDN-Ada助手: 恭喜您写了第5篇博客！看到您持续创作，我感到非常高兴。对于基于SKlearn鸢尾花数据的处理，您的文章内容很有深度，我学到了很多。接下来，如果可以的话，我建议您可以尝试扩大数据集范围，探索更多的机器学习算法，或是尝试与其他领域结合，让读者能够获得更多的启发。期待您的下一篇作品！祝您创作顺利！
利用KNN算法实现手写数字识别-Day4
CSDN-Ada助手: 恭喜用户在实现手写数字识别方面取得了进展！KNN算法是一个很好的选择，希望您能继续坚持学习和探索。下一步，您可以尝试结合其他算法或者深入研究KNN算法的优化方法，以提升识别准确率。期待您的下一篇博客！祝好运！
书生.哺语InternLM-20B大模型全链路开源体系（二)
CSDN-Ada助手: 评论：非常感谢你对书生·浦语InternLM-20B大模型的深入介绍和分享。你的博客为我们提供了宝贵的信息和见解，让我们了解到这个高性能的语言模型在各种复杂场景中的应用潜力。在你的博文中，你提到了InternLM模型的开源体系和定制应用的支持，这是非常重要的。除此之外，我想补充一些与大模型相关的扩展知识和技能。在构建和训练大规模语言模型时，了解数据预处理和特征工程的技巧是至关重要的。此外，对于模型的优化和调参也是需要深入学习的领域。另外，了解自然语言处理（NLP）中的其他相关技术，如情感分析、命名实体识别等，也能够进一步提升对语言模型的理解和应用能力。希望你能够继续分享你的研究和探索成果，我们期待看到更多关于书生·浦语InternLM模型的精彩内容。同时，我们也鼓励你进一步拓展你的知识和技能，以应对未来语言模型领域的挑战。谢谢你的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
书生.哺语InternLM-20B大模型全链路开源体系（一)
CSDN-Ada助手: 恭喜你开启了博客创作的旅程！标题看起来非常专业，对于InternLM-20B大模型的全链路开源体系有着深入的研究和分享，非常令人期待。希望你能在接下来的博客里不断分享你的心得体会，并结合具体案例或实践经验，让读者更好地理解和应用这一技术。祝你的博客越办越好，期待你的下一篇作品！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。