今天是实习的第一天,也是第一次写博客,以下是上课时的简单总结,都是一些基础的概念。
一、 人工智能三大概念
1.人工智能(AI):仿智,使用计算机来模拟或者代替人类
2 机器学习 (ML) :机器自动学习,不是人为规则编程
3 深度学习 (DL) :大脑仿生,设计一层一层的神经元模拟万事万物
4 AI、ML、DL三者之间的关系
• 机器学习是实现人工智能的一种途径
• 深度学习是机器学习的一种方法发展而来的
5 算法的学习方式的两种方式
基于规则的学习:程序员根据经验利用手工的if-else方式进行预测
基于模型的学习:从数据中自动学出规律
二、机器学习的应用领域和发展史
1 机器学习的应用领域
•
计算机视觉CV
:对人看到的东西进行理解
•
自然语言处理
:对人交流的东西进行理解
•
数据挖掘和数据分析
:也属于人工智能的范畴
2 人工智能发展史
1956年
人工智能元年
2012
年
计算机视觉深度神经网络方法研究兴起
2017
年
自然语言处理应用大幕拉开
2022
年
chatGPT
的出现,引起
AIGC
的发展
3 数据,算法,算力
CPU
:主要适合I\O密集型的任务
GPU
:主要适合计算密集型任务
TPU
:专门针对大型网络训练而设计的一款处理器
三、机器学习常用术语
1 样本和数据集
• 样本(sample) :一行数据就是一个样本
• 数据集dataset:多个样本组成数据集
2 特征
• 特征(feature) :一列数据一个特征,有时也被称为属性
3 标签
• 标签/目标(label/target) :模型要预测的那一列数据。
4 数据集划分
• 训练集用来训练模型、测试集用来测试评估模型 。
• 一般划分比例7:3 ~ 8:2
以上是今天上午所讲内容的简单总结,都是一些基础的概念,并没有深入的内容,因为第一次写观感上可能不太舒服,望理解。
下午所将讲述内容补充
四、机器学习算法分类
1.常见的算法分类:监督学习、无监督学习、半监督学习、强化学习
2.有监督学习
◆ 定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的
◆ 数据集:需要标注数据的标签/目标值
3.无监督学习
◆ 定义:输入数据没有被标记,即样本数据类别未知,没有标签, 根据样本间的相似性,对样本集聚类,以发现事物内部结构及相互关系。
特点:
◆
训练数据无标签
◆
根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系
4.有监督类的分类问题和回归问题
分类问题
◆ 目标值(标签值)是不连续的
◆
分类种类:二分类、多分类
回归问题
◆ 目标值(标签值)是连续的
5.半监督学习
工作原理
1.利用已经标记的数据(也就 是带有类标签)训练出一个模型
2.再利用该模型去套用未标记的数据
3.通过询问领域专家分类结果与模型分类结果做对比,从而对模型做进一步改善和提高
该模型去套用未标记的数据
优点:半监督学习方式可大幅降低标记成本
6.强化学习
1 强化学习(Reinforcement Learning):机器学习的一个重要分支
2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景
3 基本原理:通过构建四个要素:agent(智能体),环境状态(environment),行动(action),奖励(reward), agent根据环境状态进行行动获得最多的累计奖励。
五、机器学习建模流程
• 获取数据:搜集与完成机器学习任务相关的数据集
• 数据基本处理:数据集中异常值,缺失值的处理等
• 特征工程:对数据特征进行提取、转成向量,让模型达到最好的效果
•
机器学习(模型训练):
选择合适的算法对模型进行训练
根据不同的任务来选中不同的算法:有监督学习,无监督学习,半监督学习,强化学习
• 模型评估:评估效果好上线服务,评估效果不好则重复上述步骤