人工智能概念及机器学习

最新推荐文章于 2024-08-05 15:57:37 发布

clwq_yyyy

最新推荐文章于 2024-08-05 15:57:37 发布

阅读量1.3k

点赞数 46

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/clwq_yyyy/article/details/138082363

版权

一、人工智能概念

人工智能三大概念：人工智能（AI）、机器学习（ML）和深度学习（DL）。

1、什么是人工智能（Artificial Intelligence）？

AI is the field that studies the synthesis and analysis of computational agents that act intelligently

人工智能是研究智能行动的计算代理的合成和分析的领域。

AI is to use computers to analog and instead of human brain

人工智能是用计算机来模拟，而不是人脑。

其实，简单来说人工智能就是用计算机来模拟人脑，称为仿智。

2、人工智能的期望

Systems that think like humans

像人一样的系统

think like humans Systems that think rationally

像人类一样思考理性思考的系统

think like humans Systems that act like human

像人类一样行动的系统

think like humans Systems that act rationally

像人类一样理性行动的系统

3、什么是机器学习（machine learning）？

Field of study that gives computers the ability to learn without being explicitly programmed

使计算机能够在不明确编程的情况下学习的研究领域。

4、机器如何学习？

5、深度学习（Deep Learning）

也叫深度神经网络，大脑仿生，设计一层一层的神经元模拟万事万物

6、三者之间的关系

人工智能是一个很老的概念，机器学习是人工智能的一个子集，深度学习又是机器学习的一个子集。机器学习与深度学习都是需要大量数据来“喂”的，是大数据技术上的一个应用，同时深度学习还需要更高的运算能力支撑，如GPU。

7、学习方式

基于规则的学习：程序员根据经验利用手工的if-else方式进行预测

基于模型的学习:从数据中自动学出规律

例：房价预测

1、利用线性关系来模拟面积和房价之间的关系

eg：让直线尽可能多的经过这些点，不能经过的点分布直线两侧

2、机器学习模型

直线记成y = ax + b 就是模型，其中 a、b 就是我们要训练的模型参数！

二、机器学习的应用领域和发展史

1、机器学习的领域

2、机器学习发展史

符号主义

20世纪50-70

专家系统占主导

1950：图灵设计国际象棋程序

1962：IBM Arthur Samuel 的跳棋程序战胜人类高手（人工智能第一次浪潮）

统计主义

20世纪80-200

主要用统计模型解决问题

•1993：Vapnik提出SVM

•1997：IBM 深蓝战胜卡斯帕罗夫（人工智能第二次浪潮）

神经网络21世纪初期

神经网络、深度学习流派

•2012： AlexNet深度学习的开山之作

•2016：Google AlphaGO战胜李世石（人工智能第三次浪潮）

大规模预训练模型2017-至今

大规模预训练模型

2017年，自然语言处理NLP的Transformer框架出现

2018年，Bert和GPT的出现

2022年，chatGPT的出现，进入到大模型AIGC发展的阶段

3、AI发展三要素

数据、算法、算力三要素相互作用，是AI发展的基石。

CPU：主要适合I\O密集型的任务

GPU：主要适合计算密集型任务

TPU：专门针对大型网络训练而设计的一款处理器

三、机器学习常用术语

1、样本、特征、标签

样本(sample) ：一行数据就是一个样本；多个样本组成数据集；有时一条样本被叫成一条记录

特征(feature) ：一列数据一个特征，有时也被称为属性

标签/目标(label/target) ：模型要预测的那一列数据。

特征如何理解（重点）：特征是从数据中抽取出来的，对结果预测有用的信息 eg:房价预测、车图片识别。

2、数据集划分

编号	地区	高考分数	录取学校
1	河南	686	北京大学
2	河南	547	河南师范大学
3	河南	472	安阳工学院
4	测试	521	河南科技学院
...
n	河南	612	？

数据集可划分两部分：训练集、测试集比例：8 : 2（一般是），7 : 3

训练集(training set) ：用来训练模型（model）的数据集

测试集(testing set)：用来测试模型的数据集

其中1、2、3是训练集，4是测试集

x_train 训练集中的x x_test 测试集中的x y_train 训练集中的y y_test 测试集中的y

四、机器算法分类

机器算法分为：有监督学习、无监督学习、半监督学习、强化学习。

1、有监督学习和无监督学习

有监督学习：输入数据是由输入特征值和目标值所组成，即输入的训练数据有标签的。

数据集：需要标注数据的标签/目标值

无监督学习：输入数据没有被标记，即样本数据类别未知，没有标签，根据样本间的相似性，对样本集聚类，以发现事物内部结构及相互关系。

2、有监督分类问题和回归问题

分类问题：目标值（标签值）是不连续的。分类种类：二分类、多分类

回归问题：目标值（标签值）是连续的。

3、无监督学习举例

无监督学习特点：

（1）训练数据无标签

（2）根据样本间的相似性对样本集进行聚类，发现事物内部结构及相互关系

4、半监督学习

工作原理：

1 让专家标注少量数据，利用已经标记的数据（也就是带有类标签）训练出一个模型

2 再利用该模型去套用未标记的数据

3 通过询问领域专家分类结果与模型分类结果做对比，从而对模型做进一步改善和提高

半监督学习的好处：半监督学习方式可大幅降低标记成本。

5、强化学习

强化学习（Reinforcement Learning）：机器学习的一个重要分支

应用场景：里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

基本原理：通过构建四个要素：agent，环境状态，行动，奖励

agent根据环境状态进行行动获得最多的累计奖励。

6、机器学习算法分类 – 总结

常见算法分类	监督学习	目标值连续：回归
	监督学习	目标值离散：分类
	无监督学习	无目标值，根据样本的特征进行聚类
	半监督学习	部分样本有目标值、部分数据无目标值
	强化学习	输入动态的数据，决策+回报函数（每个转态目标值是变化的）
	强化学习	目的是能获得更多奖励，进行一系列决策过程