旷野之间12 - 内容创作用的最佳大模型评测

​​​​​​

旷野之间12 - 内容创作用的最佳大模型评测

我正在做一个项目,需要我找出最适合内容创作的 LLM。我查看了 lmsys 排行榜上的顶级模型,阅读了其他人对这些模型的评价,查看了顶级 LLM 的模型卡,在没有明确答案后,我决定对所有这些 LLM 进行测试,以完成不同的内容创作任务。

评估模型

我想要评估的模型(考虑到它们的成本、易用性以及在 lmsys 排行榜上的排名):

  1. 骆驼-3–70b
  2. Mixtral-8x7B
  3. 双子座 1.5 专业版
  4. 克劳德 3 十四行诗

以下是我所做的……

首先,我将内容创作领域分为 5 种不同的用例:

  1. 博客写作
  2. 电子邮件写作
  3. 文案撰写——包括广告、搜索引擎优化、网站、技术和社交媒体
  4. 写剧本
  5. 内容摘要

在每个用例中,我创建了多个类别,它们要么是子用例,要么是该用例流程的步骤。

每个用例如下所示:

旷野之间12 - 内容创作用的最佳大模型评测

简单的评估框架

1. GPT-4 Turbo 将担任第一位评委,根据我根据用例编写的评估提示,对每个答案进行满分 10 分的评分。

2.我本人担任第二位评委。

3. 每位评委将对答案进行满分 10 分的评分

4. 最终得分为两次得分的平均数。

制作和策划提示

在扩展每个用例的类别后,我必须仔细设计将提供给每个 LLM 的提示。不仅仅是创作提示,我知道如果我是唯一一个评估这些 LLM 的回复的人,那将是非常有偏见和不可靠的,所以我和那里最好的 LLM 联手了gpt-04-turbo

现在,

  1. 每个类别的创建提示
  2. 每个类别的评估提示

评估将由另一个 LLM 进行,我知道这听起来很奇怪,但像MT-Bench这样的基准(请注意,这个评估与 MT-Bench 相差甚远)也使用强大的 LLM 作为评判者来自动化评估过程。

为了策划创作提示,我使用了提示工程技术,例如人员采用、明确的指示、思考时间和分隔的参考文本。

例如,

社交媒体文案提示:假设您是一家精品咖啡店的社交媒体经理,这家咖啡店以使用公平贸易的有机咖啡豆而自豪。您的目标是吸引经常光顾咖啡店作为社交中心的年轻时尚受众。制作一系列社交媒体帖子:— 用生动的视觉效果和诱人的描述介绍一种新的季节性混合咖啡

  • 10
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拉达曼迪斯II

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值