Node.js如何用Gemini API给图片打标签,AI自动理解图像内容太丝滑了
标签:Gemini多模态、Node.js AI实践、图片内容理解、自动标签、谷歌AI、前端工程师实战
最近在研究多模态大模型怎么落地一些实际项目,特别是怎么自动识别图片内容、给图片打标签,省去人工整理素材的痛苦。之前玩过一些国内的大模型,效果还行,但要么不支持多图,要么不支持细粒度内容提取。直到我试了 Gemini——谷歌出的多模态模型,才知道原来图片理解这事儿,已经可以这么丝滑了。
作为一名前端开发,我更喜欢直接用 Node.js 跑服务或者做中间层。今天就来分享一下我怎么用 Gemini API + Node.js 给一张图片打上结构化标签,效果堪比专业图库。
🎯 输出效果示例
拿一张深圳地标的城市照片举个例子,输出内容如下:
* **物体:** 摩天大楼、城市天际线、建筑物
* **地点:**