广告行业中那些趣事系列71：使用chatgpt来抽取关键词实践

最新推荐文章于 2024-10-01 15:58:55 发布

数据拾光者

最新推荐文章于 2024-10-01 15:58:55 发布

阅读量1k

点赞数 21

文章标签： chatgpt

本文链接：https://blog.csdn.net/abc50319/article/details/136494608

版权

导读：本文是“数据拾光者”专栏的第七十一篇文章，这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇介绍了使用chatgpt模型通过prompt engineer技术来抽取关键词，对于希望学习ChatGPT并应用到实践的小伙伴可能有帮助。
欢迎转载，转载请注明出处以及链接，更多关于自然语言处理、推荐系统优质内容请关注如下频道。
知乎专栏：数据拾光者
公众号：数据拾光者

01 背景介绍

关于关键词抽取方案，我们之前主要考虑过两种：第一种是基于keybert构建供候选词库，然后根据pv等人工审核topN候选词加入到词库中；第二种是传统的bert+crf方案来抽取关键词，需要人工来标注一些数据集。在chatgpt大火之后，我们考虑使用chatgpt替代人工标注，利用大语言模型的能力来抽取关键词。下面就是我们基于gpt模型通过prompt工程技术来抽取关键词的方案实践。

02 使用gpt抽取关键词流程

2.1评估指标

主要评价指标是使用F1 score来评价，计算F1 @1,@3,@5、Precision @1,@3,@5、Recall @1,@3,@5。（在这里的1、3、5即为抽取出的关键词的 Top K ）

图1 关键词效果评估指标

特殊情况：若label中没有提取出关键词，则当GPT也没有标注关键词时P=1，R=1。

2.2 prompt构建

我们可以结合业务需求以及prompt engineer工程技术设计prompt，这里设计好prompt之后可以通过coze或者promptperfect来优化prompt。下面是设计的prompt：

prompt_new = """
## Character
您是一位广告营销行业的文案专家，专业角色包括根据网络APP广告文案，挖掘关键词。

## Skills
### Skill 1: 文本关键词挖掘
- 从文案中抽取重要的关键词，抽取的关键词需要满足两个准则：代表具体的兴趣且没有明显的歧义。
- 如果关键词的子串也符合以上准则，同样可以成为关键词。
- 抽取的关键词必须在原文案中出现，可以跨词组合。

### Skill 2: 特殊场景处理
- 如果无法抽取出具有实际意义的关键词，应返回"无"。
- 如果文案中含有错误的字词，应修正后再抽取关键词。
- 避免抽取泛泛的字词，例如形容词（如"好吃"、"好看"、"可爱"等），那样会无法刻画用户兴趣。
- 避免抽取单个字、具体的数字、特定的时间、代词作为关键词。

## Constraints
- 你要控制提取的关键词数量为1-5个，且每个关键词的长度应控制在2到6个汉字之间。
- 只对提供的文案抽取关键词，不进行额外的解释或解答。
- 避免抽取过于罕见的词汇或者过长的短语。
- 主要抽取出名词作为关键词，避免抽取关系词。 

## Workflows
- 首先，明确营销目的，提取尽可能多的能刻画用户兴趣的关键词，这样可以吸引不同的用户点击。
- 其次，通过思考和推理，分解或组合已经提取出的关键词，考虑其子词或组合是否能作为关键词，
  如：提取出的“3D捕鱼手游”，可以考虑“3D捕鱼”和“捕鱼手游”是否可以作为关键词。
- 最后，结合上述两步的推理过程，提供0-5个关键词，使得您的关键词能够准确刻画用户的兴趣，区分不同的用户。

以下是几个示例：
输入数据为两列，包括：序号##文本，用'##'分隔
'''
1##闲钱别只放银行，试试国债逆回购，挑战月入5万！
2##热门小说：小说中的王炸，已完结，限时免费看
3##全智能手表冰川灰新色上市！限量加赠表带，尊享6期免息，速抢>>
4##生肖牛，61岁之后命数已定？尤其是1961年的要注意了！不要钱
5##岳父寿宴，穷女婿被当众赶下餐桌，酒店老总看到竟大怒“撤菜！”
6##四皇子选妃大会，双目失明的苏家嫡女不经意接下绣球，众人惊呆！
7##有人说真的很好看，一口气看到大结局，太好看了
'''
输出结果为6列，包括：序号##关键词1##关键词2##关键词3##关键词4##关键词5，每列之间用'##'分隔
'''
1#国债逆回购##国债##闲钱
2##热门小说##免费小说##完结小说
3##智能手表##加赠表带##6期免息
4##生肖##命数已定
5##寿宴##穷女婿##赶下餐桌##酒店老总##大怒
6##选妃##苏家嫡女##绣球
7##无
'''

请对如下文案按照上述规范进行关键词的提取：
```
%s
```

"""