扣子(coze.cn)初体验丨实现一个信息采集模型

随着人工智能技术的迅猛发展,ChatGPT作为一种先进的自然语言处理模型,为我们提供了全新的沟通方式和信息提取工具。本文将引导大家通过ChatGPT,实现从对话内容中高效提取关键信息的目标。对话作为人类交流的重要形式,包含了丰富的信息,然而在海量对话中准确而快速地捕捉关键信息一直是一项具有挑战性的任务。通过本文,我们将学习如何利用ChatGPT的强大分析能力帮我们完成从用户对话内容中采集出我们想要的关键信息。

输入输出

需要定义我们需要给他什么数据,然后它返回我们什么数据
因为我们需要实现的是从一段对话中提取指定的信息。所以我们需要知道对话内容content,需要采集的信息keyword
然后需要gpt按json格式输出采集到的信息 如:

css
复制代码
input: 
    keyword:姓名,年龄
    content:`我叫优弧今年20岁了`
output:
    {
      "姓名": "优弧",
      "年龄": "20"
    }

提示词

编写良好的提示词是关键的,它直接影响到模型输出的质量和准确性。

  • 目的明确:简单明了的告诉gpt你需要它做什么
  • 避免歧义:避免出现有歧义,或者不常用的专业性术语、简写、别称,这些内容会导致Gpt无法理解你的内容
  • 简单明了:太多的内容会导致Gpt抓不到重点,从而偏离我们的目的
  • 教它该怎么做:你可以尝试教它如何做,比如第一步…,第二部…
  • 扮演XXX:你可以让他扮演XXX,从而让他一下就能知道自己的定位,如:扮演一个老师。那么它就会有老师的基本的特性,然后再给他增加一下你的定制化特性

测试数据

下面我们先定义下测试数据,后面的所有测试都用这份数据 聊天截图.png

makefile
复制代码
input: 
    keyword:姓名,年龄,每天学习时长,留学国家,报考学校,报考专业,是否留学,是否移民
    content:`用户: 你好

客服: 您好啊宝子,叫什么名字啊?
用户: 我叫优弧

客服: 你好呀,优弧同学,今年多大了呀?
用户: 二十三岁

客服: 年轻有为呢,是在为留学还是移民做准备呢?
用户: 我想去哈佛学习计算机科学。

客服: 哈哈,哈佛大学呀,是个不错的选择呢。你每天学习多少小时呢
用户: 两个半小时`

提示词1

第一步给它一个基本定位:
可以直接告诉他你是一个信息采集模型
然后可以给他定一个目标:
目标:从对话内容中分析并提炼出<待分析数据列表>中列出的关键信息。
然后将我们的关键词和对话内容给他

go
复制代码
你是一个信息采集模型。
<待分析数据列表>:{{keyword}}
1. 目标:从对话内容中分析并提炼出<待分析数据列表>中列出的关键信息。

对话内容:
```
{{content}}
```

测试结果1

输入:

go
复制代码
你是一个信息采集模型。
<待分析数据列表>:{{keyword}}
1. 目标:从对话内容中分析并提炼出<待分析数据列表>中列出的关键信息。
2. 在<待分析数据列表>中对话中没有提到的信息,你可以在保证合理的情况下对用户暂未提及的数据进行推理

对话内容:
```
{{content}}
```

输出:

image.png

swift
复制代码
{ "output": "待分析数据列表:\n- 姓名:优弧\n- 年龄:二十三岁\n- 每天学习时长:两个半小时\n- 留学国家:美国\n- 报考学校:哈佛大学\n- 报考专业:计算机科学\n- 是否留学:是\n- 是否移民:否" }

image.png

可以看到已经基本实现我们的需求了。

提示词2

可以看到在ChatGpt中使用这段提示词时留学国家未提及是否留学是否留学未确定
但是在实际生活的对话中,如果一个人说想去哈佛留学,很明显能轻松推断出留学国家是美国,因为别的国家没有哈佛大学。所以我们可以让他具有一定的推理能力,可以告诉Gpt:
在<待分析数据列表>中对话中没有提到的信息,你可以在保证合理的情况下对用户暂未提及的数据进行推理

测试结果2

因为在扣子中运行没有这个问题,所以我们这次只测试ChatGpt。

输入:

go
复制代码
你是一个信息采集模型。
<待分析数据列表>:{{keyword}}
1. 目标:从对话内容中分析并提炼出<待分析数据列表>中列出的关键信息。
2. 在<待分析数据列表>中对话中没有提到的信息,你可以在保证合理的情况下对用户暂未提及的数据进行推理

对话内容:
```
{{content}}
```

输出:

image.png

可以看到它已经具备一定的推理能力了。

提示词3

我们看上一个测试结果,可以看到年龄:23岁每天学习时长:两个半小时。这种有的是中文、有的是数字的结果。 我希望他能更标准化,得到年龄:23岁每天学习时长:2.5小时这种格式化后的数据。 那么可以告诉他对最后的数据进行清洗、润色,使其更规范。
为了让他能理解我要的结果,我们可以告诉它具体要怎么做: 如剔除不合理的数据,将被缩写或简写的数据补充完整,将口语化的数据规范化,将中文数字格式化成阿拉伯数字。

测试结果3

输入:

markdown
复制代码
你是一个信息采集模型。
<待分析数据列表>:{{keyword}}
1. 目标:从对话内容中分析并提炼出<待分析数据列表>中列出的关键信息。
2. 在<待分析数据列表>中对话中没有提到的信息,你可以在保证合理的情况下对用户暂未提及的数据进行推理
3. 对最后的数据进行清洗、润色,使其更规范,如剔除不合理的数据,将被缩写或简写的数据补充完整,将口语化的数据规范化,将中文数字格式化成阿拉伯数字。

对话内容:
```
{{content}}
```

输出:

image.png image.png

从输出结果可以看出现在的提示词已经基本完善了。

提示词4

然而我们实际开发过程中,使用接口去调用api接口,它返回的是文本内容,而且还掺杂很多无意义的内容,不方便我们从中解析数据。

image.png

image.png 要是它能和调用接口一样直接返回json格式就好了。
当然可以,我们可以告诉它仅返回<待分析数据列表>字段的json格式,然后再告诉它你希望要怎样的格式:
{ data: { "<待分析数据列表>中的字段": "采集到的数据" } }

测试结果4

输入:

css
复制代码
你是一个信息采集模型。
<待分析数据列表>:{{keyword}}
目标:从对话内容中分析并提炼出<待分析数据列表>中列出的关键信息。
2.在<待分析数据列表>中对话中没有提到的信息,你可以在保证合理的情况下对用户暂未提及的数据进行推理
3.对最后的数据进行清洗、润色,使其更规范,如剔除不合理的数据,将被缩写或简写的数据补充完整,将口语化的数据规范化,将中文数字格式化成阿拉伯数字。
5.仅返回<待分析数据列表>字段的json格式:
{
data: {
                "<待分析数据列表>中的字段": "采集到的数据"
        }
}

对话内容:
```
{{content}}
```

输出:

JSON结果.png

image.png

它已经会按照我们的要求返回json结果了

创建扣子流程

定义入参

定义入参keywordcontent
image.png

定义提示词

将入参放入提示词中,使用{{变量名}}引用变量。

image.png

定义输出

将结果输出

image.png

创建Bots

创建Bots,并将我们刚刚建的工作流添加进来,就可以开始对话了。 image.png

最终效果

整个页面.png

完整对话内容.png

bot ID: 7330516260444241959

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取==🆓

在这里插入图片描述

<think>好的,我现在需要帮用户解决如何使用扣子工具搭建小红书集采工作流的问题。首先,我要回顾用户提供的引用内容,看看里面有没有相关的信息。 用户给的引用1到4都是关于使用扣子Coze)搭建小红书相关的工作流,比如生成爆款文案、段子、梗图等。特别是引用1提到了角色设定、技能和限制,引用2和4提到了工作流的设计目标和结果展示,引用3则讲到大模型节点的使用。这些信息应该能帮助我构建一个集采工作流的步骤。 接下来,我需要明确用户的需求。用户提到“集采工作流”,可能是指集中采集内容或者批量生成内容的工作流。小红书的集采可能涉及内容采集、处理、发布等环节。根据引用中的案例,扣子工具可以通过工作流自动化这些步骤。 然后,我应该按照用户的要求,分步骤说明搭建过程。第一步可能需要创建智能体,设定角色和目标,比如内容采集和管理。第二步配置技能模块,可能包括数据抓取、内容分析、格式化输出等。第三步设计工作流,连接不同的节点,比如触发条件、数据处理、大模型生成、存储等。第四步测试和优化,确保工作流运行顺畅。第五步部署和监控,让用户能够实际使用并调整。 需要注意引用中的提示词配置,比如引用1中的角色设定和技能,引用3中的大模型节点配置,这些都需要整合到工作流的设计中。同时,要确保符合小红书的平台风格,使用合适的语言和格式。 可能还需要考虑如何集成外部工具,比如爬虫获取数据,或者图片生成工具,如引用4中的图片效果展示。此外,引用2提到的热门趋势和用户喜好分析,应该在内容处理环节加入,确保采集的内容符合爆款标准。 最后,用户可能需要相关问题的建议,比如性能优化、多平台整合、数据安全等,这些可以作为相关问题部分,帮助用户进一步探索。</think>### 分步教程:使用扣子(Coze)搭建小红书集采工作流 #### 一、核心概念理解 1. **集采工作流定义**:通过自动化流程实现小红书内容批量采集、分析、格式化输出及发布管理[^2][^3] 2. **扣子工具特性**: - 可视化工作流设计界面 - 支持多节点串联(数据采集→处理→输出) - 集成大语言模型优化内容质量[^3] #### 二、搭建步骤详解 1. **创建智能体** ```python # 基础配置示例 agent_config = { "name": "小红书集采处理器1.0", "description": "支持批量采集、智能分类、爆款内容格式化输出", "platform": "小红书" } ``` - 角色设定:具备内容识别、趋势分析、格式转换能力的数字助手[^1] - 限制条件:聚焦内容合规性审查与平台规范适配[^1] 2. **配置技能模块 - 数据采集层: ```python def data_crawler(keywords): # 集成爬虫接口采集目标内容 return raw_data ``` - 内容分析层: ```python def content_analyzer(text): # 调用大模型进行爆款指数评估 return {"trend_score": 0.92, "keywords": [...]} ``` - 输出格式化层: ```python def format_output(content): # 按小红书规范添加话题标签#、emoji符号等[^1] return final_content ``` 3. **工作流设计(节点配置)** ```mermaid graph LR A[触发条件] --> B[数据采集] B --> C[内容清洗] C --> D{质量评估} D -->|达标| E[格式转换] D -->|不达标| F[异常处理] E --> G[存储至数据库] ``` - 关键节点参数配置: $$ \text{质量评估阈值} = \alpha \times \text{互动率} + \beta \times \text{关键词匹配度} $$ 其中$\alpha=0.6$, $\beta=0.4$[^2] 4. **测试与优化 - 测试用例设计: ```python test_cases = [ {"input": "美妆教程", "expected_output": "#美妆分享..."}, {"input": "健身指南", "expected_output": "💪健身干货..."} ] ``` - 优化策略:通过A/B测试调整大模型温度参数$T \in (0,1]$控制输出多样性[^3] 5. **部署与监控 - 设置自动触发条件:每日9:00/12:00/19:00定时执行[^4] - 监控仪表盘指标: $$ \text{处理效率} = \frac{\text{成功处理量}}{\text{总请求量}} \times 100\% $$ #### 三、高级功能扩展 1. **图片处理集成**:调用DALL·E/Midjourney生成配图[^4] 2. **竞品分析模块**:实时对比同类爆款内容特征[^2] 3. **风险控制层**:添加敏感词过滤函数 ```python def content_filter(text): with open('blocked_words.txt') as f: blocked = set(f.readlines()) return any(word in text for word in blocked) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值