使用文心一言进行图像内容理解

接上篇文章,这期使用文心一言图像识别API,对本地图片以及在线视频图片进行内容理解。

该请求用于图像内容理解,支持输入图片和提问信息,可对输入图片进行理解,输出对图片的一句话描述,同时可针对图片内的主体/文字等进行检测与识别,支持返回图片内多主体/文字的内容、位置等信息。图像内容理解服务涉及 2 个子接口,分别为:

  • 图像内容理解-提交请求:支持传入图片、提问等参数,创建图像内容理解任务,该接口会返回任务ID。

  • 图像内容理解-获取结果:在任务成功创建后,支持传入任务ID,查看任务处理的状态、获取处理完成后返回的结果。

前期准备

        需要到百度AI开放平台(百度AI开放平台-全球领先的人工智能服务平台),创建用于图像识别的应用,获取对应功能的API_KEY以及API_SCRET。下图所示。

01d7d77f096441c5abb4129486254556.png

图像内容理解-提交请求

请求参数要求使用json格式的结构体来描述一个请求的具体内容,参数详情如下:

参数是否必选类型可选值范围说明
image和 url 二选一string-图片数据,base64 编码后进行 urlencode,要求 base64 编码和 urlencode 后大小不超过 4M,最短边至少 15px,最长边最大 4096px,支持 jpg/jpeg/png/bmp 格式
优先级:image > url,当 image 字段存在时,url 字段失效
url和 image 二选一string-图片完整 url,url 长度不超过 1024 字节,要求 base64 编码和 urlencode 后大小不超过 4M,最短边至少 15px,最长边最大 4096px,支持 jpg/jpeg/png/bmp 格式
优先级:image > url,当 image 字段存在时,url 字段失效
请注意关闭URL防盗链
questionstring-提问信息,如“这张图片里有什么?”、“这张图片里有几只鸟”
限制 100 个字符之内
output_CHNbooltrue/false是否以中文输出描述 description 和拼接语句 description_to_llm ,可选值包括:
- true:以中文输出
- false:不以中文输出,默认为 false

请求返回参数:

log_iduint64唯一的log id,用于问题定位
resultobject返回结果列表
+ task_idstring该请求生成的task_id,后续使用该task_id获取识别结果
def get_access_token(key,scret):
    """
    使用 AK,SK 生成鉴权签名{Access Token)
    :return: access_token,或是None(如果错误)
    """
    url = "https://aip.baidubce.com/oauth/2.0/token"
    params = {"grant_type": "client_credentials", "client_id": key, "client_secret": scret}
    return str(requests.post(url, params=params).json().get("access_token"))

def show_cam_image():
    try:
        # 尝试打开摄像头
        stream = cv2.VideoCapture(0)
        
        # 检查是否成功打开
        if not stream.isOpened():
            print("未成功打开摄像头")
            return

        # 读取一帧图像
        ret, frame = stream.read()
        
        # 如果成功读取帧
        if ret:

            # 保存图片
            image_path = "/home/lxj/chat_robot/camera.jpeg"
            cv2.imwrite(image_path, frame)

            # 将帧从BGR转换为RGB
            rgb_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)

            # 将帧编码为JPEG格式
            jpeg_frame = cv2.imencode('.jpg', rgb_frame)[1]

            # 将JPEG格式的帧转换为Base64编码
            base64_encoded_frame = base64.b64encode(jpeg_frame).decode('utf-8')

            return base64_encoded_frame
        else:
            print("未能读取到图像帧")
    
    except Exception as e:
        print(f"摄像头操作出错:{e}")
    finally:
        # 确保释放摄像头资源
        stream.release()

def ask_to_question():
    url_1 = "https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/request?access_token=" + get_access_token(Image_API_KEY,Image_SECRET_KEY)
    
    #本地图像
    # image_data = get_file_content_as_base64("/home/lxj/chat/水果.jpeg")
    #相机图像
    image_data = show_cam_image()

    payload = json.dumps({
        "image": image_data,
        "question": "图像中有什么",
        "output_CHN": True
    })
    headers = {
        'Content-Type': 'application/json'
    }
    
    response = requests.request("POST", url_1, headers=headers, data=payload)
    response_json = response.json()  # 将响应文本解析为JSON对象
    result = response_json.get("result")['task_id'] # 提取result字段,'task_id'里面的值

    return result

 图像内容理解-获取结果:

请求参数,要求使用json格式的结构体来描述一个请求的具体内容,参数详情如下:

参数是否必选类型可选值范围说明
task_idstring-调用提交请求接口时,返回的task_

返回参数:

字段类型说明
log_iduint64唯一的log id,用于问题定位
resultobject返回结果列表
+ task_idstring该结果对应请求的task_id
+ ret_codeint识别状态,0:处理成功;1:处理中;若发生错误,将返回其他错误码,详情可参考 图像识别-错误码
+ ret_msgstring识别状态信息:sucess:处理成功;processing:处理中;若发生错误,将返回其他错误信息,详情可参考 图像识别-错误码
+ descriptionstring针对图片的一句话描述,当 output_CHN= true 时,该字段输出为中文
+ description_to_llmstring拼接一句话描述、OCR 及图像识别结果、提问信息后的语句,将该语句输入大模型后,大模型将基于图像内容与提问,给出相应答案
当 output_CHN= true 时,该字段输出为中文;当 output_CHN= false 时,该字段输出为中英混合
+ subject_resultarray图片内主体检测的信息
++ namestring图片主体标签
++ locationobject图片内主体的检测框位置信息
+ classify_resultarray图片内目标分类的信息
+ ocr_resultarray当图片中存在文字时,该参数有返回
++ wordstring文字识别结果字符串
++ rectarray文字识别结果位置信息
+++ leftuint32位置的长方形左上顶点的水平坐标
+++ topuint32位置的长方形左上顶点的垂直坐标
+++ widthuint32位置的长方形的宽度
+++ heightuint32位置的长方形的高度
def get_result():
# 构建URL
        url_2 = "https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/get-result?access_token=" + get_access_token(Image_API_KEY, Image_SECRET_KEY)
        
        # 构建payload,使用提取到的task_id
        payload = json.dumps({
            "task_id": "前面请求得到的task_id"
        })
        headers = {
            'Content-Type': 'application/json'
        }
        
        response = requests.request("POST", url_2, headers=headers, data=payload)
        response_json = response.json()  # 将响应文本解析为JSON对象

        # 提取字段的值
        subject_result = response_json.get('result', {}).get('subject_result', [])
        description = response_json.get('result', {}).get('description', [])
        # 打印提取的结果
        print(subject_result)
        print("图片描述:", description)

!!!二者结合时需要注意,提交请求返回task_id后需要等几秒再去获取结果,否则会返回图像正在处理中,得不到结果。

 {"ret_msg":"processing","ret_code":1,"task_id":"1787461990977925034"},"log_id":1787461997975067066}

### 文心一言4.0 API文档使用指南 #### 接入准备 为了使企业客户能顺利接入文心一言4.0所提供的强大功能,需先完成一系列准备工作。这包括但不限于注册成为百度智能云用户,并创建千帆应用以便后续操作[^1]。 #### 能力概述 文心一言作为一款先进的大型预训练语言模型,拥有五大核心能力——文学创作、商业文案创作、数理逻辑推算、中文理解以及多模态生成。这些特性使得该API适用于多种场景下的自动化文本生产和服务构建工作,在搜索问答、内容创作生成、智能办公等领域展现出巨大潜力。 #### 获取访问权限 对于希望利用上述特性的开发者而言,获得必要的授权是第一步。企业级使用者应当向官方提交申请材料并通过审核后才能正式启用相关接口服务。此过程一般会涉及到填写详细的项目计划书和技术方案说明等内容,确保双方就合作细节达成一致意见后再行授予相应的密钥信息用于实际调用过程中身份验证之目的。 #### 实际调用示例 下面给出了一段简单的Python代码片段展示如何发起一次针对特定话题的内容生成功能请求: ```python import requests import json url = "https://aip.baidubce.com/rpc/2.0/ernie/v1/turbogeneration" headers = { 'Content-Type': 'application/json', } data = { "prompt": "请根据以下要点撰写一篇关于未来城市交通发展的短文:\n1. 当前面临的主要挑战\n2. 新兴技术带来的机遇", "options": {"response_format": "text"} } params = {'access_token': '<your_access_token>'} # 替换为自己的Access Token response = requests.post(url, headers=headers, params=params, data=json.dumps(data)) print(response.json()) ``` 这段脚本实现了向服务器发送POST请求的功能,其中包含了待处理的任务描述(prompt),即要求AI助手按照指定框架构思一篇文章;同时设置了返回数据的形式选项(options)以满足不同应用场景的需求。最终结果将以JSON格式呈现给客户端应用程序进一步解析或显示给终端用户查看。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值