存在人工和数据偏差的算法
你见过和/或编写过的大部分模型都依赖于大型数据集来训练和学习。当你遇到挑战时,作为程序员,你需要定义分类图像数据的函数和模型。程序员和数据确定了脸部识别等分类算法的工作原理。
要注意的是,数据和人类都存在偏差,分别具有分布不均衡的图像类型或个人偏好。还要注意的是,这些偏差会分散到算法创建中。对于脸部识别,想象一下以下情形:哈尔特征等模型训练所用的脸部主要是白人女性;此网络将擅长于检测此类脸部,但是不擅长于检测其他脸部。如果将此模型用于普通脸部识别,则有偏差的数据会创建一个有偏差的模型,如果算法没有体现出目标用户的多样性,则根本没有用。
来自 MIT 媒体实验室的计算机科学家 Joy Buolamwini 研究了决策制定算法中的偏差,她的研究成果揭示了此问题在某些方面的影响。一项研究调查了肤色在女性脸部识别程序中造成的错误率。下图是研究结果。