斯坦福AI指数报告总结（视觉部分）

最新推荐文章于 2024-06-04 09:47:22 发布

桶的奇妙冒险

最新推荐文章于 2024-06-04 09:47:22 发布

阅读量200

点赞数 1

分类专栏：人工智能文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_50588811/article/details/124006062

版权

5 篇文章 1 订阅

订阅专栏

8个重点（全文围绕的）

2021年私人投资在AI上增加很多，将近1000亿美金投资，比2020年多1倍，投资更加集中
中美跨国研究合作最多
语言模型更强也更有偏见，2018年bert1亿参数，2021年2800亿参数模型生成出来的那些带有偏见的有毒的结果增加了29%，因为大模型使用更大的数据，这些数据不像小数据那么能够给你精心准备，而且大模型更容易把大数据里带有偏见的一些东西显现出来
AI伦理文章越来越多
AI变得越来越便宜，性能越来越高，训练一个图片分类器的开销从2018年到现在相比的话下降了3.6%，训练的时间缩短了94.4%，这是因为gpu做的越来越大了，如果不计算挖矿导致的GPU价格升高的话，其实他的成本是往下降的，而且我们现在能够用更大的集群，用更好的算法能做分布式的训练，所以它的整体计算时间是下降的
在报告的10个数据集上面，9个数据集最好的方法用了额外的数据
在全球范围内关于AI的立法也越来越多了
机械臂变得越来越便宜了，在2017年平均一个机械臂的价格是4万美金，现在基本只要一半的价格

技术进展

1、图片分类：参考数据集imagenet，识别精度越来越高，越来越卷

2、图片生成：衡量指标FID（Frechet Inception Distance score）是计算真实图像和生成图像的特征向量之间距离的一种度量。FID 越低，图像质量越好；反之，得分越高，质量越差，两者关系应该是线性的。

3、人姿态估计：

应用：找关键点，做体育分析，人监控，交通手语识别

传统解决方式：传感器采集，有场地限制，但视觉可以摆脱这种限制

主要数据集：PCK

在Flickr上采集的2000张运动员图片判断14个关节的不同位置

4、语义分割：工业里应用在无人车，看到地方什么是可以开的路面什么是人行道，什么地方是建筑，什么地方是天空，或者做一些图片的分析，哪个是前景哪个是后景，比如相机照片背景模糊（今年百度智能车竞速组赛题语义分割）

医疗诊断里：肿瘤，皮肤病这种

评测标准IoU（交并比Intersection over Union）计算的是 “预测的边框” 和 “真实的边框” 的交集和并集的比值。

5、识别检测：从人脸检测到戴口罩的人脸检测，视频中的物体识别（yolo）

6、基于视觉的问答系统：给系统输入一张图片（一段文字），让其输出图片文字里讲了什么内容。目前在简单的图片中效果做的不错，但到了高阶问题，更深一层（需要拐弯思考）的效果就很差。

7、视频中的行为检测：

重要数据集：Kinetics：youtube上找了几十万个视频把它分类到不同的种类里面

8、目标检测：主要数据集COCO

主要评估方法：mAP （mean Average Precision，平均精度均值，即 AP ( Average Precision)的平均值，它是目标检测算法的主要评估指标。目标检测模型通常会用速度和精度 (mAP)指标描述优劣，mAP值越高，表明该目标检测模型在给定的数据集上的检测效果越好

主要方法：SSD, RetinaNet, YOLO, 优先考虑准确性的两阶段方法，如Mask R-CNN、Faster R-CNN和Cascade R-CNN。（百度智能车创意组别题目，目前正在努力调参，目前用的是ppyoloe魔改参数版，不过感觉到头了，得换网络）

9、视觉常识推理

目前还是有很大提升空间，研究的方向比较小众

评价方法：Q->AR score,选定的答案与给出答案之间的平分，目前人的baseline是85%，而机器只能到72%

关注

专栏目录