Node.js如何用Gemini API上传图片给图片打标签,AI自动理解图像内容太丝滑了

Node.js如何用Gemini API给图片打标签,AI自动理解图像内容太丝滑了

标签:Gemini多模态、Node.js AI实践、图片内容理解、自动标签、谷歌AI、前端工程师实战


最近在研究多模态大模型怎么落地一些实际项目,特别是怎么自动识别图片内容、给图片打标签,省去人工整理素材的痛苦。之前玩过一些国内的大模型,效果还行,但要么不支持多图,要么不支持细粒度内容提取。直到我试了 Gemini——谷歌出的多模态模型,才知道原来图片理解这事儿,已经可以这么丝滑了。

作为一名前端开发,我更喜欢直接用 Node.js 跑服务或者做中间层。今天就来分享一下我怎么用 Gemini API + Node.js 给一张图片打上结构化标签,效果堪比专业图库。

🎯 输出效果示例

在这里插入图片描述

拿一张深圳地标的城市照片举个例子,输出内容如下:

* **物体:** 摩天大楼、城市天际线、建筑物
* **地点:** 
### 使用 GEMINI API 上传 PDF 文件进行分析 为了通过 GEMINI API 上传 PDF 文件并对其进行分析,通常涉及几个关键步骤。这些步骤确保文件能够被正确解析和处理,从而提取有价值的信息。 #### 准备工作 在开始之前,确认已经获取了必要的 API 访问权限以及安装了任何必需的库或 SDK。这可能包括设置环境变量来存储访问密钥和其他认证信息[^3]。 #### 创建请求头 构建 HTTP 请求时,需要包含适当的身份验证令牌以及其他元数据字段。例如: ```python import requests headers = { 'Authorization': 'Bearer YOUR_ACCESS_TOKEN', 'Content-Type': 'application/pdf' } ``` #### 构建多部分表单数据 当发送 PDF 文档给服务器端点时,应该将其作为二进制流嵌入到 multipart/form-data 中。这样可以保证文档内容不会因为编码转换而损坏。 ```python files = [('file', ('document.pdf', open('path/to/your/file.pdf', 'rb'), 'application/pdf'))] response = requests.post(url='https://api.gemini.com/v1/upload', headers=headers, files=files) ``` 一旦成功提交了 POST 请求,API 将返回一个响应对象 `response` ,其中包含了有关操作状态的信息。如果一切顺利,则会收到表示成功的 HTTP 状态码 (通常是 200 或 201),并且可以在 JSON 响应体中找到进一步指示下一步骤的数据结构。 对于更详细的指导和支持材料,请参阅官方开发者文档或者联系技术支持团队获得帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

代码简单说

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值