目录
1、发现与明确问题
技术角度:需要思考AI系统性能能达到预期吗?需要多少数据?能获取到足够数据吗?需要多长时间?
业务角度:要解决什么问题?商业目的是什么?
对数据进行分析,一般通过使用适当的统计、机器学习、深度学习等方法、对收集的大量数据进行计算,汇总与整理,以求最大化的开发数据价值,发挥数据作用。
2、人工智能项目的开发周期
3、数据准备
数据准备的流程:数据采集-->数据清洗--->数据标注--->数据验收---->数据交付
数据采集方法:
观测数据、人工收集、调查问卷、线上数据库
数据清洗:
有缺失的数据、有重复的数据、有内容错误的数据(逻辑/格式...)、不需要的数据
数据标注:
数据标注即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习标签的过程。
数据划分:
数据标注后需要划分为训练集与测试集。拆分比例根据具体任务决定,通常训练集的比重较大,一个可能的划分比例是:训练集数据数量:测试集数据数量=8:2
训练集:用于完成模型训练任务
测试集:用于对模型的泛化效果进行检验。
数据验收:
合法性:数据符合定义的业务规则或约束的程度
准确性:数据接近真实值的程度
完整性:所有必须数据的已知程度
一致性:数据在同一数据集内或跨多个数据集的一致程度
数据管理:
数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效的发挥数据的作用,实现数据有效管理的关键是数据组织。
与数据相关的问题:
数据不足、数据隐私泄露、分类质量低、数据质量低
4、特征工程
4.1特征工程是什么
特征工程是指从原始数据转换为特征向量的过程。特征工程是机器学习中最重要的起始步骤,会直接影响机器学习的效果,通常需要大量的时间来完成。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。
4.2 特征工程的基本方法
特征选择:
从给定的特征集合中选出相关特征子集的过程称为特征选择。去除无关特征可以降低学习任务的难度,也同样让模型变得简单,降低计算复杂度。抛弃这部分信息一定程度上会降低模型的性能,但这也是计算复杂度和模型性能之间的取舍。
特征提取:
特征提取( feature extraction )一般是在特征选择之前,它提取的对象是原始数据,目的就是自动地构建新的特征,将原始数据转换为一组具有明显物理意义(比如Gabor、几何特征、纹理特征)或者统计意义的特征。
特征构建:
特征构建( feature construction)指从原始数据中人工的构建新的特征。需要花时间去观察原始数据,思考问题的潜在形式和数据结构,对数据敏感性和机器学习实战经验能帮助特征构建。