广告行业中那些趣事系列71:使用chatgpt来抽取关键词实践

导读:本文是“数据拾光者”专栏的第七十一篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇介绍了使用chatgpt模型通过prompt engineer技术来抽取关键词,对于希望学习ChatGPT并应用到实践的小伙伴可能有帮助。
欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。
知乎专栏:数据拾光者
公众号:数据拾光者

fefde99c75412a09f9905507a4aa2f6c.jpeg

01 背景介绍

关于关键词抽取方案,我们之前主要考虑过两种:第一种是基于keybert构建供候选词库,然后根据pv等人工审核topN候选词加入到词库中;第二种是传统的bert+crf方案来抽取关键词,需要人工来标注一些数据集。在chatgpt大火之后,我们考虑使用chatgpt替代人工标注,利用大语言模型的能力来抽取关键词。下面就是我们基于gpt模型通过prompt工程技术来抽取关键词的方案实践。

02 使用gpt抽取关键词流程

2.1评估指标

主要评价指标是使用F1 score来评价,计算F1 @1,@3,@5、Precision @1,@3,@5、Recall @1,@3,@5。(在这里的1、3、5即为抽取出的关键词的 Top K )

0576b9b5fe5335a8178744330eeadc7c.jpeg

图1 关键词效果评估指标

特殊情况:若label中没有提取出关键词,则当GPT也没有标注关键词时P=1,R=1。

2.2 prompt构建

我们可以结合业务需求以及prompt engineer工程技术设计prompt,这里设计好prompt之后可以通过coze或者promptperfect来优化prompt。下面是设计的prompt:

prompt_new = """
## Character
您是一位广告营销行业的文案专家,专业角色包括根据网络APP广告文案,挖掘关键词。

## Skills
### Skill 1: 文本关键词挖掘
- 从文案中抽取重要的关键词,抽取的关键词需要满足两个准则:代表具体的兴趣且没有明显的歧义。
- 如果关键词的子串也符合以上准则,同样可以成为关键词。
- 抽取的关键词必须在原文案中出现,可以跨词组合。

### Skill 2: 特殊场景处理
- 如果无法抽取出具有实际意义的关键词,应返回"无"。
- 如果文案中含有错误的字词,应修正后再抽取关键词。
- 避免抽取泛泛的字词,例如形容词(如"好吃"、"好看"、"可爱"等),那样会无法刻画用户兴趣。
- 避免抽取单个字、具体的数字、特定的时间、代词作为关键词。

## Constraints
- 你要控制提取的关键词数量为1-5个,且每个关键词的长度应控制在2到6个汉字之间。
- 只对提供的文案抽取关键词,不进行额外的解释或解答。
- 避免抽取过于罕见的词汇或者过长的短语。
- 主要抽取出名词作为关键词,避免抽取关系词。 

## Workflows
- 首先,明确营销目的,提取尽可能多的能刻画用户兴趣的关键词,这样可以吸引不同的用户点击。
- 其次,通过思考和推理,分解或组合已经提取出的关键词,考虑其子词或组合是否能作为关键词,
  如:提取出的“3D捕鱼手游”,可以考虑“3D捕鱼”和“捕鱼手游”是否可以作为关键词。
- 最后,结合上述两步的推理过程,提供0-5个关键词,使得您的关键词能够准确刻画用户的兴趣,区分不同的用户。

以下是几个示例:
输入数据为两列,包括:序号##文本,用'##'分隔
'''
1##闲钱别只放银行,试试国债逆回购,挑战月入5万!
2##热门小说:小说中的王炸,已完结,限时免费看
3##全智能手表冰川灰新色上市!限量加赠表带,尊享6期免息,速抢>>
4##生肖牛,61岁之后命数已定?尤其是1961年的要注意了!不要钱
5##岳父寿宴,穷女婿被当众赶下餐桌,酒店老总看到竟大怒“撤菜!”
6##四皇子选妃大会,双目失明的苏家嫡女不经意接下绣球,众人惊呆!
7##有人说真的很好看,一口气看到大结局,太好看了
'''
输出结果为6列,包括:序号##关键词1##关键词2##关键词3##关键词4##关键词5,每列之间用'##'分隔
'''
1#国债逆回购##国债##闲钱
2##热门小说##免费小说##完结小说
3##智能手表##加赠表带##6期免息
4##生肖##命数已定
5##寿宴##穷女婿##赶下餐桌##酒店老总##大怒
6##选妃##苏家嫡女##绣球
7##无
'''

请对如下文案按照上述规范进行关键词的提取:
```
%s
```

"""

3.3 实验结果对比

下面会分别对比gpt模型、温度系数、batch_size以及few-shot数量对关键词抽取效果的影响。

3.3.1 不同模型效果影响

分别使用gpt-35-turbo和gpt-4-turbo模型,batch_size设置为40(也就是每次调用gpt接口输入40条文本进行关键词抽取),使用相同的prompt抽取关键词查看效果:

214a7f7e2812017f1a0b8fb866305319.jpeg

图2 不同模型效果

因为业务以及评估集关系,这里主要看下gpt-4相比于gpt-35的提升情况,假如gpt-35效果为1,从上表中可以看出,gpt-4相比于gpt-35来说效果提升还是比较明显的,F@5提升了25.29%,F@1提升了35.62%。

3.3.2 GPT4关于温度系数的实验

我们还发现调用gpt-4模型时不同的温度系数对关键词抽取效果也有影响。这里分别查看温度系数为[1,0.9,0.5,0.2,0.1,0]时关键词抽取效果:

e49089f6717347594016a2f799df8f16.jpeg

图3 温度系数效果

从上表中可以看出,温度系数为1时效果最差,从1降低到0时效果稳步提升,当温度系数为0时,相比于1来说F@1提升了8.62%,F@5提升了7.5%。

3.3.3 batch_size效果影响

使用gpt-4,设置温度系数为0,每次调用gpt接口分别输入不同的文本去抽取关键词效果如下:

cdb16886748b0498e61d301e883b498e.jpeg

图4 batch_size效果

Batch_size设置为45时关键词效果最差,设置为30时效果最好,F@1提升10.17%,F@5提升10.83%。

3.3.4 few-shot数量效果影响

使用gpt-4,batch-size设置为40,few-shot分别使用5、10、15和18时关键词抽取效果的影响:

21a58fb65fa4c0ec10024f66e52592a7.jpeg

图5 few-shot数量效果

Few-shot数量为5时效果最差,整体来看提供的示例数量越多,效果越好。

总结与反思

本篇主要介绍了使用chatgpt通过prompt engineer工程技术来抽取关键词实践,包括评估指标、prompt构建,同时对比了gpt模型、温度系数、batch_size大小以及few-shot数量对抽取关键词效果的影响。

最新最全的文章请关注我的微信公众号或者知乎专栏:数据拾光者。

码字不易,欢迎小伙伴们点赞和分享。

  • 21
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ChatGPT vue是一个基于Vue.js的在线聊天机器人应用程序。Vue.js是一种流行的JavaScript框架,用于构建用户界面。ChatGPT Vue使用OpenAI的GPT-3技术作为其机器人引擎,用于输入文本的自然语言处理和输出聊天响应。 ChatGPT Vue应用程序可以通过Web浏览器进行访问,用户可以通过它来与机器人进行聊天。用户可以在聊天框输入关于任何话题的问题或话题,ChatGPT Vue的机器人引擎将根据用户输入的文本进行深入分析,以了解用户的意图,并给出最佳响应。 除了基本的聊天功能外,ChatGPT Vue还提供了一些其他功能,例如: 1. 学习:ChatGPT Vue可以学习新的知识和信息,并与用户分享这些信息。 2. 游戏:ChatGPT Vue还可以与用户玩游戏,例如数独和文字游戏。 3. 娱乐:ChatGPT Vue还可以向用户播放音乐,提供有趣的故事和趣事等娱乐内容。 ChatGPT Vue的优点是其基于Vue.js的柔性和可定制性。Vue.js框架为开发人员提供了广泛的工具和库,可以轻松创建高度可定制的用户界面和交互式功能。同时,由于ChatGPT Vue使用OpenAI的GPT-3技术,因此其机器人引擎具有很强的自我适应和自适应能力,可以不断改进并学习新东西。 总的来说,ChatGPT Vue是一个强大且高度可定制的在线聊天机器人应用程序,可以将用户与机器人的互动变得更加人性化和自然。它的使用也在不断增长,成为越来越多人工智能应用程序的代表作之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值