ImageNet数据集的构建逻辑

ImageNet,由斯坦福大学的FeiFei Li教授等人创建,以其严谨性和规范性闻名。该数据集借鉴了WordNet的构建逻辑,为每个英文名词提供大量图片。ImageNet的构建涉及从互联网自动化收集图片、众包标注和质量控制。通过Amazon Mechanical Turk进行图片标注,确保数据准确性。ImageNet的成功在于其规模和多样性,推动了深度学习在计算机视觉领域的进步。
摘要由CSDN通过智能技术生成

以下文章摘录自:

《机器学习观止——核心原理与实践》

京东: https://item.jd.com/13166960.html

当当:http://product.dangdang.com/29218274.html

(由于博客系统问题,部分公式、图片和格式有可能存在显示问题,请参阅原书了解详情)

 

1.1    ImageNet简述

2012年,深度学习领域的大牛Hinton发表的论文《ImageNet Classification with Deep Convolutional Neural Networks》为Computer vision领域带来了革命性的变化——从标题不难看出,这篇论文的工作就是基于Imagenet数据集来完成的。

ImageNet的其中一个主要缔造者是来自Stanford University的教授FeiFei Li——相信大家对这个名字并不陌生。因为随着深度学习的大热,imagenet和李教授也可以说是“名满天下”了。她本人目前既是斯坦福大学人工智能实验室与视觉实验室的负责人,同时还加入了谷歌云担任人工智能和机器学习的首席科学家(注:截至本书上市时,FeiFei Li已经从Google离职)。

ImageNet的成功是多方面促成的——这其中虽然难免掺杂着“时机”的因素,但我们更应该看到的是其背后团队“十年如一日”的付出,以及更为重要的一点:数据集本身的严谨性和规范性。

后面这一点也是接下来我们希望重点阐述的。相信理解ImageNet的构建逻辑,对于大家在项目中自定义一个数据集也可以起到不小的帮助作用。

1.2    ImageNet的构建逻辑

所谓“万事开头难”,ImageNet在建立之初,首先遇到的问题就是如何通过数据来体现世界的多样性。根据ImageNet的描述,研究人员做了不少前期的探索,并最终借鉴了类似于WordNet的作法。

WordNet源于Princeton 大学,是由心理学家(乔治·A·米勒),语言学家和计算机工程师共同设计的一种基于认知语言学的“新型”英语词典。官方网址如下:

https://wordnet.princeton.edu/

官网上对它的简洁定义是“A Lexical Database for English”,其核心逻辑在于:

“WordNet® is a large lexical database of English. Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressing a distinct concept. Synsets are interlinked by means of conceptual-semantic and lexical relations.”

图 ‑ Synsets

 

也就是说,wordnet中意义相近的单词都被组成一个个同义词组(Synset),并提供了简短概要的定义。同时,不同synset之间还通过语义关系组织成网络(名词、动词、形容词和副词各自组网)。事实上在WordNet的第一个版本中(标记为1.x),四种不同词性的网络之间并无连接。其中WordNet的名词网络是第一个发展起来的。我们援引北京大学语言学研究中心对它的描述来加深理解,如下所示:

l  在WordNet 1.5版中包含了差不多80000名词 -- 60000词汇化的概念;其中许多都是collocation(搭配型词)

l  WordNet跟其他传统词典的差别,主要不是在词义以及覆盖面方面,还是信息的组织方式的创新方面

l  传统的词典包括:拼写、发音、屈折变化形式、词源、派生形式、词性、定义以及不同意义的举例说明、同义词和反义词、特殊用法说明、临时用法等

l  WordNet不包括发音、派生形态、词源信息、用法说明、图示举例等。WordNet尽量使词义之间的关系明晰并易于使用

l  WordNet中的基础语义关系是synonymy(同义关系)。同义词集合(synset)构成了WordNet的基本建筑单位(building block)。Ravin(1992)已经开发了一些程序用于从同义词词林中抽取同义词集合。但WordNet的这类工作是手工进行的

l  WordNet中的同义概念并不是指在任何语境中都具有可替换性。如果以这样的标准来衡量同义关系,语言中的同义词就少得很了<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值