1. 人工智能
① 人工智能的四要素:数据、算法、算力、场景
人工智能的子领域:机器学习、计算机视觉、语音识别、机器人、数据挖掘、计算机图形学、人机交互
可视化、数据库技术、多媒体技术、知识工程、自然语言处理、信息检索与推荐
② 计算机视觉研究的主题:图像分类,目标检测、图像分割、目标跟踪、文字识别和人脸识别等。
算法开发框架:TensorFlow、Pytorch、PaddlePaddle、MindSpore;
Tensorflow 2.0正式版集成Keras 作为其高阶APl,由于其易移植性在工业界的应用广泛。
Pytorch 由于其易用性得到学术界的广泛认可;
2. 机器学习
① 机器学习解决的主要问题
分类:输入(标签值),构建模型输出是离散的类别值;比如图像分类
回归:给定输入,预测输出数值,输出是连续数值;比如预测证券价格、天气变化
聚类:大量未知标注的数据集,根据之间的相似度划分类别;比如图像检索、电商用户图像
② 机器学习分类
有监督学习:已知类别的样本,构建最优模型,对未知数据进行分类;例如分类,回归
无监督学习:算法对没有标记的样本直接进行建模,对于新来的样本按照相似程度进行归类;例如聚类
半监督学习:试图让学习器自动地对大量未标记数据进行利用以辅助少量有标记数据进行学习
强化学习:模型从环境到行为映射的学习,模型感知环境并做出行动,以使强化信号函数值最大;例如阿尔法狗
③ 机器学习的整体流程
数据收集:数据集(ImageNet),训练集,测试集,验证集(搜索模型最优的超参数)
数据清洗(脏数据):数据清理(数据清理),数据标准化(减少噪声),数据降维(简化数据不必要属性)
特征提取与选择:过滤法(filter),包装器(wapper),嵌入法(Embedded)
模型训练:机器学习分类
模型评估测试:回归:MAE,MSE,R2
分类:TP,TN,FP,FN(精度,召回率,准确率,错误率)
模型部署与整合:适用于新样本的能力称为泛化能力,也称为鲁棒性
训练误差:模型在训练集上的误差
泛化误差:在新样本上的误差
欠拟合:如果训练误差很大的现象
过拟合:训练误差很小而泛化误差较大的现象