胡扯AI评测

最新推荐文章于 2024-05-23 17:58:33 发布

孤独的侠客

最新推荐文章于 2024-05-23 17:58:33 发布

阅读量318

点赞数

分类专栏：研发管理文章标签： AI评测 AI 评测

本文链接：https://blog.csdn.net/chenyunqiang/article/details/88876395

版权

研发管理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

评测即对算法的效果与性能进行评价测量，传统的语音类评测主要是结果导向（算法指标—WER、业务指标—达成率）。
从测试的角度来看，测试case的覆盖往往是不够充分的，那么从asr算法模型的原理来看，另外一种评测思路：数据导向（通过对训练数据和评测数据的特征分布等进行分析，反推评测结果）。
ASR算法模型分为两部分：声学模型和语言模型，前者负责语音解码，
后者负责文本的搜索和输出。声学模型的目标是提供一种有效的方法，计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。
语言模型
- 由于很难准确地确定词的边界，以及声学模型描述语音变异性的能力有限，识别时将产生很多概率得分相似的词的序列，就要语言模型结合起来对搜索范围进行限定。
- 于是这里有了一个思考点：语言模型虽然缩小了搜索范围，但是也对算法输出的结果有了限制，也就是说这个“概率得分相似的词的序列”会有期望的正确结果被误杀的可能，进而可能会影响到业务达成。于是可以考虑一种把多个概率得分相似的词，选出top N来进行下一步（如NLP）的处理。
ASR算法评测指标业界常用的就是WER（Word ErrorRate）
不同于其他一些BenchMark, DAWNBench关注更端到端性能。以往的很多基准大都采集将在单个小批量数据上进行训练所需的时间作为关键指标（等价于吞吐量，比如图像分类任务通常以每秒处理的图片张数作为性能评测指标），而忽视了经过训练后模型结果的精准度。另一些基准的侧重点则在于，对深度学习计算中使用到的单个低级操作（例如：卷积、矩阵乘法）进行计时。与这些基准不同，DAWNBench在确保测量达到预期精准度所需时间的同时，兼顾了硬件和统计性能。
AI评测的基础是选定评价标准(BenchMark)
针对DWANBench、MLPerf、DeepBench和BenchIP这几个代表性的测试基准。总的来说，这些测试基准主要从宏观和微观两个方面去测试：宏观即端到端的系统测试，对于软件应用使用者来说，可以获得直观的性能评价。微观是对深度学习计算中使用到的单个基本操作（例如：卷积、矩阵乘法）或者单层（如池化层Pooling、全连接层FC）进行测试，使得测试基准可以更细粒度的评测一个AI系统。
一般来说，一个算法评测平台要包含以下功能：
算法的模型演练、数据的评测、业务结果的透析过程。提供人工标注、实时对比、样本管理、自动回归、线上效果回放功能。在平台上，使用者（算法或测试）可以灵活的配置业务模板、创建任务、标注数据、获取报告结果，还可以针对业务做回归监测、在线的模型与离线模型的比对验证。
传统算法和AI模型之间有什么区别？
- 从黑盒的角度来看，是一样的，你提供一些输入，得到一些输出。
  从白盒的角度来看，特别是从系统构建的角度看则不同。核心的区别是：传统软件的逻辑是你写的，而机器学习的逻辑（Function）是通过某个算法通过你的数据训练出来的。你可以测试算法中数据抽取，交互，加载等过程，但是你无法评估AI模型的质量。
如何做AI产品的质量保证？
- 建立完整的测试方案。从模型评审，代码扫描，单元测试，接口测试，集成测试，ETL测试，AB测试，灰度发布等整体上把控质量。
- 做黑盒测试，提供测试数据，提供服务用于有效展现测试结果，与算法工程师产品一同评估结果；
- 提供模型质量方案，应该包含综合多维度的质量评估（而不是之前的通过率）。这些维度应该是和大数据工程师，算法工程师一起制定的。
如何确定产品的行为是正确的？
- 始终要清楚，测试结果与历史结果或其他期望结果的偏差在可接受范围内。与你的大数据工程师，算法工程师一起来评估，因为偏差是否可接受需要对AI模型有深入的理解。
如何保障产品在更新的时候不会出问题？
- 首先，确保之前各层的白盒测试是通过的。
- 执行黑盒冒烟测试，测试不同的输入，验证结果可接受。
- 灰度发布验证。引入部分真实样本数据进行线上验证。
一个好的AI测试人员，应该是一个好的传统产品测试人员+算法开发人员的合体。
业界标注平台调研
- 亚马逊土耳其（https://www.mturk.com/ ）：亚马逊土耳其机器人利用人的网络来执行不适合计算机执行的任务。亚马逊调用那些计算机很难完成但“人工的人工智能”却能很容易执行的任务。
- 阿里众包（http://zhongbao.alibaba.com/）
- 蚂蚁标注平台 (https://alphaq.alipay.com/index_manage.htm)
- 百度众包（http://zhongbao.baidu.com/）
- 京东微工（http://weigong.jd.com/）
- BasicFinder（https://www.basicfinder.com/）人工智能大火，BasicFinder要做数据采集、加工的“送水人”

孤独的侠客

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
胡扯AI评测

评测即对算法的效果与性能进行评价测量，传统的语音类评测主要是结果导向（算法指标—WER、业务指标—达成率）。从测试的角度来看，测试case的覆盖往往是不够充分的，那么从asr算法模型的原理来看，另外一种评测思路：数据导向（通过对训练数据和评测数据的特征分布等进行分析，反推评测结果）。ASR算法模型分为两部分：声学模型和语言模型，前者负责语音解码，后者负责文本的搜索和输出。声学模型...
复制链接

扫一扫