【coze】故事卡片(图片、音频、文字)

1、创建智能体

从左侧找到工作空间,切换为个人空间,点击右上角创建
[图片]

选择智能体进行创建
[图片]

智能体名称:故事卡片生成
智能体功能介绍:根据提示词生成带图片、音频、文字的故事小卡片
[图片]

2、添加人设与回复逻辑

## 角色
你是一个音频故事生成助手,你可以按照用户的要求,生成最终的内容,你工作时请注意:

## 要求
1、生成故事文字,不低于100字,不超过200字,并将故事的文字进行输出
2、用故事文字生成音频,将音频文件原始链接输出,不需要输出成可点击的文字链接
#3、给故事的每一个场景生成图片,将图片输出,整个故事不超过3张图片,图片风格全部采用迪士尼风格

## 工具使用
你在完成用户任务的过程中可以使用story工作流

[图片]

3、添加工作流

(1)创建工作流

[图片]

工作流名称:story
工作流描述:故事生成工作流
[图片]

(2)添加大模型节点

[图片]

将大模型和开始节点相连
[图片]

配置模型为DeepSeek-V3
[图片]

大模型输入为开始节点的input
[图片]

系统提示词如下:
你在完成用户任务的过程中可以输出以下内容:
1、故事内容story
2、故事配图提示词picture

[图片]

用户提示词为:{{input}}
[图片]

添加两个输出变量,分别为storypicture
****[图片]****

(3)添加提示词优化节点

为了让图片生成的效果更好,通常需要添加提示词优化
[图片]

将大模型与提示词优化节点相连
[图片]

设置提示词为大模型节点的picture
[图片]

(4)添加豆包图像生成

[图片]

搜索豆包图像生成,找到gen_image点击添加
[图片]

将图像生成节点和提示词优化节点相连
[图片]

图像生成节点的prompt为提示词优化节点的data
[图片]

req_schedule_conf为固定值general_v20_9B_pe
[图片]

(5)添加语音朗读插件

[图片]

搜索语音合成,点击添加
[图片]

将语音合成和大模型相连
[图片]

配置语音合成的text为大模型的story
[图片]

speaker_id为爽快思思/Skye在这里插入图片描述

(6)添加输出节点

[图片]

连接输出节点
[图片]

添加输出节点参数,分别是story、picture、audio
[图片]

设置story参数为大模型节点的story
[图片]

设置picture参数为图片合成节点的image_urls
[图片]

设置audio参数为语音朗读节点的link
[图片]

(7)结束节点设置

将输出节点与结束节点相连
[图片]

删掉结束节点的输出,这里不需要输出内容
[图片]

(8)工作流试运行

[图片]

输入讲个故事,点击试运行
[图片]

我们可以看到,输出节点三个参数均有数据,如果显示失败,重新试运行即可
[图片]

(9)发布并添加工作流

[图片]

版本描述就写工作流的描述就行:故事生成工作流
然后点击发布
[图片]

发布完成后,会弹窗提醒是否添加至智能体,点击确认
[图片]

如果上一步不小心把弹窗关了,也可以手动添加刚刚创建的工作流
[图片]

[图片]

4、卡片设计

(1)新增卡片

在工作流上,点击绑定卡片数据
[图片]

选择输出下面的绑定卡片
[图片]

新增一个卡片
[图片]

(2)设置图片

在组件中,找到图片控件,拖拽进编辑区
[图片]

点击图片区域,一定要点击图片,不要点击外框
[图片]

设置图片为宽度铺满模式
[图片]

点击(x)图标,点击新建变量
[图片]

变量名:picture
默认值可以随便写,也可以设置系统默认图标链接
https://lf-card-builder.oceancloudapi.com/obj/bot-studio-builder/4004860678112580_1706003508909477605.png
[图片]

再次点击(x)图标,绑定刚刚新建的picture变量
[图片]

(3)设置音频

在组件中,找到音频,拖拽进编辑区
[图片]

在左侧选择变量,点击新建变量
[图片]

变量名称:audio
变量默认值:随便写即可,我这里写了个mp3
[图片]

点击音频播放条,选择变量,选择刚刚新建的audio变量
[图片]

(4)设置故事文字内容

再新建一个变量
[图片]

变量名:story
变量默认值:随便敲个空格即可
[图片]

将文本组件拖拽进工作区
[图片]

点击文本组件,点击右上角的(x)图标
[图片]

选择story变量
[图片]

(5)卡片命名及发布

给卡片起个名字:故事小卡片
[图片]

点击右上角发布
[图片]

点击确定即可
[图片]

(6)绑定数据

单击故事小卡片,把story、audio、picture按如下图所示进行配置,配置完成点击确认
[图片]

5、模型选择和设置

智能体支持多种大语言模型,点击下拉菜单,选择自己喜欢的大模型作为引擎进行回复。当然也可以添加多个模型,进行“模型对比调试”
[图片]

这里我选择“DeepSeek-V3”模型。
[图片]

6、测试智能体

测试之前,先优化一下提示词
把提示词中的story删掉,输入{会自动弹出窗口,添加story工作流
[图片]

添加完后如下图所示,这样做的目的是让系统更稳定的调用工作流
[图片]

发送测试问题:最近有什么节日,写一个故事给4岁小女孩
[图片]

点击运行完毕图标,可以查看插件调用详细信息
[图片]

[图片]

7、发布智能体

[图片]

默认为coze商店发布,如果有其他需求自行勾选
[图片]

发布成功可以对话,也可以复制链接发给别人
[图片]

### OCR技术用于图片文字的识别与提取 对于从图片中提取文字的任务,可以采用OCR(Optical Character Recognition,光学字符识别)技术。这项技术能够自动解析并转换图像中的文本内容到可编辑的形式。 #### 使用百度OCR API进行文字识别 当使用百度提供的OCR服务时,开发者可以通过调用API接口来获取图片内的文字信息[^1]。具体操作流程如下: ```python from aip import AipOcr APP_ID = 'your-app-id' API_KEY = 'your-api-key' SECRET_KEY = 'your-secret-key' client = AipOcr(APP_ID, API_KEY, SECRET_KEY) def get_file_content(filePath): with open(filePath, 'rb') as fp: return fp.read() image = get_file_content('example.jpg') result = client.basicGeneral(image); for word in result['words_result']: print(word['words']) ``` 这段Python代码展示了如何利用百度AI平台上的AIP库完成基本的文字识别工作。需要注意的是,在实际应用前需替换`your-app-id`, `your-api-key`, 和 `your-secret-key`为真实的密钥值,并指定待处理的图片路径。 #### 利用腾讯云OCR SDK实现文字检测 除了百度之外,还可以选择腾讯云所提供的OCR解决方案。这里介绍基于SDK的方式来进行通用印刷体识别[^2]。安装相应的SDK之后,可以根据官方指南编写简单的程序读取本地图片文件并提交给服务器端做进一步分析。 ```java import com.tencent.cloud.ocr.OcrClient; import com.tencent.cloud.common.profile.HttpProfile; import com.tencent.cloud.common.profile.ClientProfile; // 初始化客户端配置... HttpProfile httpProfile = new HttpProfile(); httpProfile.setEndpoint("ocr.ap-guangzhou.tencentcloudapi.com"); ClientProfile clientProfile = new ClientProfile(); clientProfile.setHttpProfile(httpProfile); OcrClient ocrClient = new OcrClient(new Credential("secretId", "secretKey"), "", clientProfile); String base64ImageStr = Base64.getEncoder().encodeToString(FileUtils.readFileToByteArray(file)); GeneralBasicOCRRequest request = GeneralBasicOCRRequest.builder() .imageBase64(base64ImageStr) .build(); try { GeneralBasicOCRResponse response = ocrClient.GeneralBasicOCR(request); System.out.println(response.toJsonString()); } catch (TencentCloudSDKException e) { e.printStackTrace(); } ``` 上述Java代码片段说明了怎样借助腾讯云的Java SDK执行基础的文字识别任务。同样地,记得更新认证凭证以及目标图片的数据源部分。 #### 图片识别的最佳实践建议 为了提高OCR系统的准确性,应该遵循一些最佳做法[^3]: - **预处理阶段**:确保输入图片质量良好,比如调整亮度对比度、去除噪声干扰等; - **版面布局理解**:如果可能的话,尝试了解文档结构以便更好地定位特定区域的内容; - **多引擎组合策略**:有时候单独依靠某一家服务商未必能获得最理想的结果,因此不妨考虑融合多个来源的信息作为最终输出;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值