多模态_a839766550的博客-CSDN博客

多模态

文章平均质量分 80

多模态视频理解、多模态搜索推荐

文章数：6 文章阅读量：5581 文章收藏量：11

作者: a839766550

CV、NLP、推荐都搞过，无一精通； python、c++、java、scala、toml、conf都写过，无一深入

展开

深度学习模型实战-深度学习模型在各大公司实际生产环境的应用讲解文章

建这个仓库的是因为工作之后发现生产环境中应用的模型需要做到速度和效果的平衡，并不是越复杂越好。所以一味的追求新的模型效果不大（并不是不追，也要多看新东西）。学到模型最终是要用，而且要用好，于是就建了这么个仓库，积累一下深度学习模型在各个公司中的应用以及细节，这样在自己工作中可以做到借鉴。

原创 2022-11-17 15:17:29 · 168 阅读 · 0 评论
干货|爱奇艺短视频多模态分类技术解析

近年来，短视频领域一直广受关注，且发展迅速。图像模型的好坏直接影响到最终提取的图像特征的效果，需要选择一个效果与效率都很高的模型来完成我们的任务，在项目中我们尝试了ResNet50和Xception两个模型，并且最终选择后者，后者在我们的场景中训练、预测耗时接近，Accuracy高3%。使用Attention可以对长距离的共现信息进行建模，并且能够识别整个序列中最为关注的部分，该技术可以和上述的CNN和RNN这种与序列有关的技术配合使用，能够取得更好的效果，下图是典型的基于点积的（多头）注意力机制。

原创 2022-11-17 15:07:46 · 712 阅读 · 0 评论
海量短视频打标问题之Active-Learning

本文以为海量短视频打标签为例子，简单介绍了一下主动学习这种实用的学习方法。但是单单靠这一种方法来做海量短视频打标还是远远不够的，后续我会再介绍这个问题上用得上的其他技术点。

原创 2022-11-17 14:52:33 · 722 阅读 · 0 评论
海量短视频打标问题之多模态机器学习

这里不想去扣多模态严格的学术定义，只需要把多模态理解成不同来源或不同形式的信息就可以了，比如视频里面的声音和图像就是多模态。对图像用CNN抽取特征，对声音用CNN进行特征抽取，这叫多模态的特征学习；将汉语用算法转换成英语，这叫多模态的转换；对抽取出来的图像和声音特征在时间维度进行对齐，这叫多模态特征的对齐；人身上有眼耳口鼻等不同的器官，根据这些器官检测到周围各种信息，比如图像、声音、味道、温度等，再根据这些不同来源的信息综合起来做出判断，这叫多模态特征的融合；

原创 2022-11-17 11:51:41 · 1359 阅读 · 0 评论
多媒体内容理解在美图社区的应用实践

导读：移动互联网时代，图像和短视频等多媒体内容爆发，基于计算机视觉的AI算法是多媒体内容分析的基础。在美图社区智能化发展的过程中，视频和图像分类打标、去重以及质量评估的结果，在推荐、搜索以及人工审核等多个场景下都有应用。本文主要介绍美图社区图像和短视频分析，如何减少短视频去重在美图社区误召以及OCR在内容审核的应用以及落地。01多媒体内容理解美图社区和多数社区一样，包含图片、文字、音频、视频等多种形态的数据。社区内容五花八门、质量层次不齐、数据分布极度不均匀，这给内容理解带来了很大的挑战。

原创 2022-11-17 11:41:50 · 1028 阅读 · 0 评论
多模态预训练模型

多模态预训练模型

原创 2022-09-29 15:53:38 · 1592 阅读 · 0 评论

多模态

作者: a839766550

深度学习模型实战-深度学习模型在各大公司实际生产环境的应用讲解文章

干货|爱奇艺短视频多模态分类技术解析

海量短视频打标问题之Active-Learning

海量短视频打标问题之多模态机器学习

多媒体内容理解在美图社区的应用实践

多模态预训练模型