MindSpore作为一个端边云协同的的全场景AI开源框架,为开发者带来大规模AI、极致性能,极简开发、安全可信的体验,2020.3.28开源来得到数五十万以上的下载量,走入100+高校教学,拥有数量众多的开发者,在AI计算中心,智能制造、云、CT、消费者1+8+N等端边云全场景逐步广泛引用,是Gitee指数最高的开源软件。
欢迎大家参与开源贡献、模型众智合作、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。基于MindSpore的AI顶会论文越来越多,我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟MindSpore合作,一起推动原创AI研究,MindSpore社区会持续支撑好AI原创和AI应用,本文是MindSpore AI顶会论文第三篇,我们选择了来自国内高校在ACL2021的一篇论文进行解读,感谢中山大学苏教授团队投稿。
论文整体目录:
1. MindSpore论文解读 | 自此告别互信息:用于跨模态行人重识别的变分蒸馏技术
2. MindSpore论文解读 | EPRNet:应用于实时街景分割的高效金字塔表征网络
研究背景
文本的语义哈希在大规模信息检索系统中起着重要作用。现有的语义哈希技术通常是先将文本映射成二进制离散向量表征,然后通过计算向量之间的汉明距离来进行检索,从而加快了检索速度,同时减少对存储的要求。
由于数据标注代价昂贵,如何在大量的无标签文本中学习高质量的哈希码近年来得到了广泛的关注。大量工作表明,文本的语义以及文本之间的关联信息在该文本的编码和表达过程中往往扮演着更重要的角色,也对生产高质量哈希码起着关键作用。
然而,大部分现有模型仅关注如何捕捉语义信息,而忽略了对文档之间的关联信息的建模。在本文中,我们同时捕捉文本本身的语义信息和文档之间的相关性,从而大大提高的检索的精度。
主要内容
为了同时建模文本的语义和文档之间的关联信息,我们基于生成模型的框架,对文档和表征的联合概率分布进行建模。
相比与上文提到的基于图驱动模型(graph driven),我们通过生成树近似算法(tree approximation),大大降低了计算复杂度,同时引入了文档之间的关联信息。而与表征高斯先验相比(meand field),我们的模型有着几乎相同的计算复杂度,但打破了数据之间的独立同分布假设,从而大大提高了模型的表达能力。
代码链接
-
会议名称:
Annual Meeting of the Association for Computational Linguistics (2021) (ACL 2021)
-
论文链接:
https://aclanthology.org/2021.acl-long.174/
-
代码链接:
https://gitee.com/mindspore/contrib/tree/master/papers/SNUH/
实验结果
我们在Reuters, TMC, 和20Newsgroups三个数据集上对我们的模型进行测试,并使用Precision@100作为评价指标:即对每一篇文档,我们检索出与其距离最小的前100个文档,并计算他们属于同一个类别的比例。结果如下:
可以发现,我们的模型在大部分的实验场景中都取得了SOTA效果。
MindSpore代码实现
1. 使用mindspore.dataset.GeneratorDataset封装数据集
2. 定义网络结构
3. 载入数据集、初始化网络、设定优化器
4. 使用梯度下降进行训练
总结与展望
如何在表征学习中引入数据之间的相关性是一个非常重要的问题。通过引入数据相关性,可以得到语义更加丰富的表征,从而提高其在下游任务中的表达能力。在本文中,我们基于生成模型的框架,通过设计基于图结构的高斯分布来引入文本邻居信息。此外,我们还可以使用其他更加技术,如关联结构(copula),对比学习,图神经网络等。我们希望本文能启发更多的研究者来探讨如何将数据关联性引入到表征学习中,从而丰富其语义信息,提高表达能力。