Interesting!只需上传照片,GPT-4V精准识别食物的卡路里和摄入热量

7057ff8b93d8705e048928466e5f2fdc.png  夕小瑶科技说 原创
 作者 | 谢年年、Python

健身和减肥的朋友有福啦!

最近一篇文章探索了GPT-4V在膳食评估领域的强大能力,可以根据饮食图片精准判断食物的种类与重量,并给出营养成分的分析,包括碳水化合物、蛋白质、脂肪占比。

最最重要的是,它还能告诉我们这些食物的卡路里是多少,这对于我们减肥的朋友来说可是超级重要的!

你可以上传吃之前和吃之后的图片,GPT-4V可以轻松判断摄入了多少热量。

比如提供这两张图片:ce3daf2a751f07eb636affeac0b4fb99.png

给模型一些任务提示:

识别提供的图像中的食物类型,包括食用前和食用后。使用周围的对象作为近似分量大小的参考。为每一类食物的摄入量提供合理的克数估计。请注意,这些食品来自加纳和肯尼亚。

输出结果:

为了估算份量,我将使用杯子和盘子作为参考,假设盘子是标准的餐盘大小,直径约为10-12英寸。以这些物体为尺度,我们可以做出以下估计: 食物1(炸鱼):初始份量约400克;消费份量约300克。食物2(淀粉类配菜,可能是banku或fufu):初始份量约300克;消费份量约250克。食物3(番茄酱):初始份量约150克;消费份量约75克。食物4(洋葱片):初始份量约50克;消费份量约20克。

看看营养成分呢:

计算一下300g炸鱼、250gbanku、75g番茄酱和20g洋葱片的营养成分,包括碳水化合物、蛋白质、脂肪和卡路里。请以下列格式列出结果:碳水化合物:[g],蛋白质:[g],脂肪:[g],卡路里:[千卡]。

输出:

300克炸鱼包括0克碳水化合物,78克蛋白质,33克脂肪,606千卡的热量。250g的banku含有120g碳水化合物,4.5g蛋白质,1g脂肪,527.5千卡热量。75g番茄酱,包含3g碳水化合物,0.75克蛋白质,0.225克脂肪,15千卡的热量。20g洋葱片含有1.8克碳水化合物、0.22克蛋白质、0.02克脂肪和8千卡热量。

它还能像个营养小贴士一样,告诉我们饮食中缺少了哪些营养,并给出合理的建议。这样我们就可以更好地调整自己的饮食。

这顿饭缺少什么营养,吃什么来补充呢?4869059f7be28f2a8f978d1530089b57.png

输出:

根据您提供的图片,这顿饭包括米饭和鸡肉,这可能提供了大量的碳水化合物、蛋白质和脂肪。然而,它似乎缺乏一些纤维和维生素:纤维:没有可见的蔬菜或水果,而这些是提供膳食纤维所必需的。为了增加纤维摄入量,可以考虑加一份混合蔬菜或新鲜沙拉。维生素和矿物质:新鲜水果和蔬菜也是维生素和矿物质的重要来源。乳制品或钙源:没有乳制品或其他富含钙的食物。可以从牛奶,奶酪,酸奶,或钙强化植物选择一份增加钙含量。

看着还挺像那么回事,有了GPT-4V督促,就不用担心一不小心吃多啦!6b26ad37adef3398c6e21f60219961e0.gif

但上面只是一些例子参考,GPT-4V在膳食评估方面的准确性到底如何呢?本文的作者还进行了多个数据维度的详细定量分析,让我们一起来了解一下吧!

论文标题:
Dietary Assessment with Multimodal ChatGPT: A Systematic Analysis

论文链接:
https://arxiv.org/pdf/2312.08592.pdf

实验数据

作者使用了居住在伦敦的肯尼亚和加纳裔成年人的饮食摄入数据。为每位参与者分配了eButton或AIM摄像机被动记录他们的饮食摄入量。使用标准化的Salter breknell体重秤记录食物初始重量和吃饱后剩余的食物重量。配备经验丰富的营养师作为人工评估基准,与GPT-4V的结果进行比较。

实验结果

食物检测能力

首先来看看GPT-4V能否准确识别食物的类别。

作者对比了是否包含食物来源信息的提示下的模型性能。从结果可以看出,指明食物来源可以显著提高语言模型的能力,准确识别特定文化的食物,**准确率达到了87.5%**,相比不说明食物来源提高了十几个点。

92ad21bbc265070fd8e820c243a52822.png

当食物来源未指定时,GPT-4V经常错误将白色淀粉类食物误分类为米饭。当说明了食物来自肯尼亚或加纳时,模型能准确将食物识别为banku或ugali,这是传统的非洲食物。

食物分量估计

下图展示了三种方法包括GPT-4V、人眼估计和基准真值对食物分量的估计,图中观察到的趋势表明,GPT-4V的预测通常与基准真值非常接近。

c4e6d3fc2a8dc9d10af819fff6e74f54.png

作者进一步使用绝对误差的度量来比较GPT-4V和人类估计。GPT-4V的估计的平均绝对误差为54.6g。相比之下,人类估计准确性稍微更高一些,平均绝对误差为43.6g。但也说明GPT-4V的表现与人类非常接近

aeb945a3b1fa645b3798501690b8aa1a.png

营养成分估计

在估算出食物分量之后,作者利用GPT-4V模型将食物的重量转化为特定的营养数据,重点关注关键的膳食成分:碳水化合物,蛋白质,脂肪和卡路里。获取的结果与真实值进行比较。

下表展示了10个不同膳食的分量和营养成分估计误差。可以看到,营养估计的准确性在很大程度上取决于分量估计的准确性。

21a29357a82c71d4db8adb8139b2c1eb.png

下图显示了GPT-4V预测32种食物的碳水化合物、蛋白质、脂肪和卡路里含量的预测结果,并与真实值进行对比,可以看出,GPT-4V预测的趋势在大部分食物上与真值一致082656da26172e70c4dd369d59815e76.png

处理低可见图像的能力

本文还突显了GPT-4V处理低可见度图像(如在黑暗环境中拍摄的图像)的能力。

b5428af5bcf84948f9a7abd379531bf9.png

在光线暗的地方,如果没有足够的语境提示,GPT-4V可能倾向于会把食物当成米饭或面包这类常见的食物。但是,当我们给了它一些关于食物来源的信息时,它就能准确地识别出来,比如banku和ugali这种传统的非洲食物。

结论

本文分析了GPT-4V在膳食评估中的潜力。即使在没有使用特定食物数据集进行微调或适应的情况下,GPT-4V在食物检测方面准确率高达87.5%。另外GPT-4V可以利用周围的物体作为比例参考来推断食物项目的份量大小,进一步提高将食物重量转化为营养含量的准确性。

虽然GPT-4V很强大,但还不能完全解决复杂的空间关系和精确空间分析任务。比如,它对于估算食物的体积或分量不太准确,因为这需要三维感知能力,超出了它的能力范围。在本文的实验中发现它对重量不到30g的食物类别难以准确估计。

即便如此,它的表现也几乎达到了人类水平。期待未来版本的GPT-4V能更稳健,为我们提供更准确的膳食摄入评估。

c549d98a26358b2afe9a9397ffe338a6.png

 
 
 
 

e1cd3ef411ace953919520465790b0d4.jpeg

 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
  • 交流群

欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961)

9b6a7c7abfe7ceadbb61af1941d1ed4e.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分析 人体健康信息 体重 身高 年龄 菜品信息 菜的名称 卡路里 蛋白质,脂肪等 推荐的食用量 某个人群对应的改善体质(减肥,塑性,增肌等)的方案 菜谱 运动方式 数据集和api 图像识别食物,获取卡路里: https://cloud.baidu.com/product/imagerecognition/fine_grained nutrition facts from food : https://www.kaggle.com/openfoodfacts/world-food-facts#en.openfoodfacts.org.products.tsv https://world.openfoodfacts.org/ 数据集官网 456赞,目前为止发现的最高的相关数据集 nutrition facts for McDonald’s : https://www.kaggle.com/mcdonalds/nutrition-facts Calories, fat, and sugar for every cheeseburger, fries, and milkshake on menu 更牛逼的食材分析和菜谱推荐: http://pic2recipe.csail.mit.edu/ 加强版百度API 莫须有数据集 糖尿病 时间-血糖含量关系数据 : https://archive.ics.uci.edu/ml/datasets/diabetes GPA和饮食习惯的关系 : https://www.kaggle.com/borapajo/food-choices 9种体质 //暂定 根据用户的体质来进行推荐菜谱与制定营养计划 —- 两种模式:9体模式和普通健身模式 用户可以随时输入自己当前吃的食物的名字与量 —- 随时记 动态爬虫——http://www.boohee.com/ 每种食材的卡路里等信息(优先kaggle) 卡路里累加器及其可视化、每天个人信息可视化 https://www.xinshipu.com/ 菜谱信息 通过照片提取出食物卡路里等信息 百度api http://www.zyyssl.com/cookbook.html //中药食材信息、药膳信息、9体、各种病针对的药膳 照片识菜帮 http://www.ttmeishi.com/CaiXi/YaoShan/ //病人对应的食谱 测算http://www.chinacaipu.com/zt/sccs.html 体质算法 11、http://www.chinacaipu.com/menu/jianya/ 特殊人群(压力之类的) 求分析 登陆、注册 输入基本信息信息(身高、体重、性别、年龄) 额外信息(工作、周均运动时间、睡眠段、九体、病史) 针对没有填写额外信息的用户:选择减肥、增肌、塑形 、保持 可视化(自己的信息和目标标准的比较、根据上述选择改变)每天的量(手环、手机计步器),近几天的曲线 推荐菜谱:两个tab,一个定制菜谱,一个是随机智能推送 单一菜推荐 组合推荐 一周大菜谱推荐(根据每日你自己加的一些信息动态改变) 如果填了额外信息的,就是药膳推荐(一周药膳、周二普通、周三药膳。。。。)(注意可能不想减肥啥的) 百度api->动态录入每顿饭的信息(防抖处理,这里吹牛逼算法,推测吃了多少卡路里),识别后把,动态改变一周定制计划 做菜环节加入识菜帮所有功能,并加入详细食材信息卡路里等 针对特殊人群,混到推荐里推送有利于健康的方法信息(敷黄瓜方法) 特殊病人群体每日相关东西的摄取量的一个限定区间显示 ocr体检单信息录入 针对照片中菜的数量分析吃了多少菜,包含多少卡路里
Android拍照识别翻译是指使用Android手机的照相功能,通过拍摄图像中的文字内容,然后利用内置的识别和翻译功能将这些文字转化为其他语言,以实现翻译的功能。 通过Android手机的相机模式,我们可以轻松拍摄照片。拍照识别翻译功能将利用这些照片中的文字信息。当用户使用相关应用或服务时,文字识别算法会自动分析图像,辨别出其中的文字,并将其提取出来。 然后,这些提取出来的文字会进一步经过翻译功能的处理,将其转化为用户所要的目标语言。这就使得用户能够轻松地理解外文、翻译文件或者与外国友人沟通。 与传统的文字翻译软件相比,拍照识别翻译在使用上更加便捷。用户只拍摄照片,便能够直接获得文字的翻译结果,而无输入文字或选择翻译语言,节省了用户的操作时间和精力。 此外,拍照翻译在旅游、学习和工作中也有广泛的应用。比如,当我们在旅游中遇到一些外文标识,我们可以通过拍照识别翻译快速获取其含义;当我们要学习外文资料时,也可以通过拍照识别翻译迅速理解其内容;在工作中,我们还可以通过拍照识别翻译处理外文文件或与国外同事交流。 总之,Android拍照识别翻译功能为我们的日常生活和工作提供了便利。通过拍摄照片,我们可以轻松地获取文字信息,并借助翻译功能将其转化为我们所要的语言。这一功能不仅简化了翻译的流程,也加快了信息交流的速度,提高了我们的工作效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值