人工智能项目开发规划与准备

 

目录

1、发现与明确问题

2、人工智能项目的开发周期

3、数据准备

4、特征工程

4.1特征工程是什么

 4.2 特征工程的基本方法


1、发现与明确问题

        技术角度:需要思考AI系统性能能达到预期吗?需要多少数据?能获取到足够数据吗?需要多长时间?

        业务角度:要解决什么问题?商业目的是什么?

        对数据进行分析,一般通过使用适当的统计、机器学习、深度学习等方法、对收集的大量数据进行计算,汇总与整理,以求最大化的开发数据价值,发挥数据作用。

2、人工智能项目的开发周期

3、数据准备

        数据准备的流程:数据采集-->数据清洗--->数据标注--->数据验收---->数据交付

数据采集方法:

         观测数据、人工收集、调查问卷、线上数据库

数据清洗:

        有缺失的数据、有重复的数据、有内容错误的数据(逻辑/格式...)、不需要的数据

数据标注:

        数据标注即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习标签的过程。

数据划分:

        数据标注后需要划分为训练集与测试集。拆分比例根据具体任务决定,通常训练集的比重较大,一个可能的划分比例是:训练集数据数量:测试集数据数量=8:2

        训练集:用于完成模型训练任务

        测试集:用于对模型的泛化效果进行检验。

数据验收:

        合法性:数据符合定义的业务规则或约束的程度

        准确性:数据接近真实值的程度

        完整性:所有必须数据的已知程度

        一致性:数据在同一数据集内或跨多个数据集的一致程度  

数据管理:

        数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效的发挥数据的作用,实现数据有效管理的关键是数据组织。

与数据相关的问题:

        数据不足、数据隐私泄露、分类质量低、数据质量低

4、特征工程

4.1特征工程是什么

        特征工程是指从原始数据转换为特征向量的过程。特征工程是机器学习中最重要的起始步骤,会直接影响机器学习的效果,通常需要大量的时间来完成。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。

        

 4.2 特征工程的基本方法

 特征选择:

        从给定的特征集合中选出相关特征子集的过程称为特征选择。去除无关特征可以降低学习任务的难度,也同样让模型变得简单,降低计算复杂度。抛弃这部分信息一定程度上会降低模型的性能,但这也是计算复杂度和模型性能之间的取舍。

特征提取:

        特征提取( feature extraction )一般是在特征选择之前,它提取的对象是原始数据,目的就是自动地构建新的特征,将原始数据转换为一组具有明显物理意义(比如Gabor、几何特征、纹理特征)或者统计意义的特征。

 特征构建:

        特征构建( feature construction)指从原始数据中人工的构建新的特征。需要花时间去观察原始数据,思考问题的潜在形式和数据结构,对数据敏感性和机器学习实战经验能帮助特征构建。

 

        

        

        

        
 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

疯丰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值