导读:本文是“数据拾光者”专栏的第七十二篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇主要介绍了使用chatgpt通过prompt engineer工程技术来审核关键词的实践,对于希望学习ChatGPT并应用到实践的小伙伴可能有帮助。
欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。
知乎专栏:数据拾光者
公众号:数据拾光者
摘要:本篇主要介绍了使用chatgpt通过prompt engineer工程技术来审核关键词的实践,提供了一个可用prompt实例,在线上也取得不错的效果。
01 背景介绍
之前介绍过,我们目前线上关键词抽取方案是先通过n-gram基于keybert构建候选词库,然后从候选词库中根据不同数据源的pv等人工审核topN候选词加入到正式的关键词词库中。前面分享了使用chatgpt来抽取关键词,这里我们改造一下propt,使用chatgpt模型来帮助我们审核候选关键词是否是一个好的关键词,从而替代人工每周审核关键词的操作。经过实践发现,gpt模型审核关键词效果是非常好的,可以大大节约人力。
02 使用gpt抽取关键词流程
2.1评估指标
主要评价指标是使用p、r和f1得分计算关键词审核效果。
2.2 prompt构建
我们可以结合业务需求,将之前关键词抽取的prompt进行改造,下面是使用chatgpt来审核关键词设计的prompt:
prompt_text = """
您是一位NLP领域的数据标注专家,负责审核给定的关键词是否合法,请对用户输入的每行一个关键词分别输出“是”或“否”。
# 合法关键词的两个核心定义:
1、形式上是完整的符合语法规则的名词性短语、命名实体、动宾短语等,如“国债逆回购”、“领白酒”、“看小说”;短句子不是,例如“穿越小说太精彩”、“看小说的人”、“看小说的”等都不是合法关键词
2、内容上能表示具体的用户兴趣且没有明显的歧义
# 特别注意:
## 待审的关键词来自分词后的n-gram拼接,形式上很可能不完整,请严格参考核心定义1
## 不能表示用户兴趣的词,如形容词、副词、代词、数字、时间、地点、关系词等,都属于无效关键词,且包含它们的短语也是无效的关键词
## 政治敏感、色情、暴力、恐怖、违法犯罪等词汇都属于无效关键词
# 输入输出
## 输入格式:每行一个关键词
## 输出格式:每行一个关键词,格式为:关键词##{标签},其中标签为“是”或“否”,表示关键词是否合法
# 示例
## 输入
频赚
整理师叠
柠檬大厅
王艺迪
## 输出
频赚##否
整理师叠##否
柠檬大厅##是
王艺迪##是
"""
3.3 模型效果
关于模型效果方面,和之前使用chatgpt来抽取关键词的经验一致:模型方面,gpt4的效果要远优于chatgpt,同时温度系数建议设置为0,示例的选择和数量也很重要。
总结与反思
本篇主要介绍了使用chatgpt通过prompt engineer工程技术来审核关键词的实践,提供了一个可用prompt实例,在线上也取得不错的效果。
最新最全的文章请关注我的微信公众号或者知乎专栏:数据拾光者。
码字不易,欢迎小伙伴们点赞和分享。