参会记录|2024 中国多媒体大会

前言:2024年7月24日-26日,前往宁夏银川参加今年的中国多媒体大会,切实感受AI在各行各业的全面开花🌼,现对本次会议的收获进行总结记录。

中国多媒体大会 ChinaMM (csig.org.cn)

主要收听的专题的报告如下:

1: 智能艺术与设计Al Art & Design
2: AIGC与媒体内容安全
3: AI4Food:食品和健康计算

此外,还收听了一些零散的学术报告,以及快手、华为等企业的讲座。


在这里插入图片描述

通过本次大会,可谓收获满满,拓宽了认知边界, 以下是我本人结合以往研究经历总结的AI赋能各大场景的现状,可以看到在各行各业,AI都在散发着自己的光芒,未来,AI将会深入我们的生活,让我们的生活更加便捷。

在这里插入图片描述

记不清是哪位老师说的,场景化是AI应用的关键,在会场时,这种感觉尤其强烈,AI正在改变我们的生活,也希望我们正在进行的研究能够使得AI变得更加美好!

在这里插入图片描述


额外收获

  • 通用图像分割模型:Meta 发布的 Segment Anything Model(SAM)
  • 视频生成模型:Sora、Pika、Runway

中科深健:融合前沿食品视觉识别技术理念, 围绕食堂多场景智慧营养餐厅应用,研发了菜品识别结算系统、餐盘识别结算系统、 深健智慧食堂管理系统、用户健康管理app等多个软硬件系统。PS:体验了一下他们的菜品识别营养评估系统,由于我国菜品丰富,在识别准确率方面该系统还有很大的提升空间。

在这里插入图片描述

在这里插入图片描述

参考资料

  1. Food Recommendation: Framework, Existing Solutions, and Challenges. TMM, 2020.
  2. “健康+AI”生态创新大赛启幕 让全球看见“数智伊利”新力量-新华网 (xinhuanet.com)
  3. [2308.14346] DISC-MedLLM: Bridging General Large Language Models and Real-World Medical Consultation (arxiv.org)
  4. [2309.17421] The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) (arxiv.org)
  5. [2312.04461] PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding (arxiv.org)
  6. [2401.07519] InstantID: Zero-shot Identity-Preserving Generation in Seconds (arxiv.org)
  7. [2406.10261] FoodSky: A Food-oriented Large Language Model that Passes the Chef and Dietetic Examination (arxiv.org)
  8. [2407.05161] A Survey of Datasets for Information Diffusion Tasks (arxiv.org)
  9. HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data. CVPR, 2024
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Meilinger_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值