旷野之间12 - 内容创作用的最佳大模型评测

拉达曼迪斯II

于 2024-07-11 10:04:48 发布

阅读量432

点赞数 10

分类专栏： AI创业 AIGC学习文章标签：人工智能大数据机器学习深度学习 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms44/article/details/140343776

版权

我正在做一个项目，需要我找出最适合内容创作的 LLM。我查看了 lmsys 排行榜上的顶级模型，阅读了其他人对这些模型的评价，查看了顶级 LLM 的模型卡，在没有明确答案后，我决定对所有这些 LLM 进行测试，以完成不同的内容创作任务。

评估模型

我想要评估的模型（考虑到它们的成本、易用性以及在 lmsys 排行榜上的排名）：

骆驼-3–70b
Mixtral-8x7B
双子座 1.5 专业版
克劳德 3 十四行诗

以下是我所做的……

首先，我将内容创作领域分为 5 种不同的用例：

博客写作
电子邮件写作
文案撰写——包括广告、搜索引擎优化、网站、技术和社交媒体
写剧本
内容摘要

在每个用例中，我创建了多个类别，它们要么是子用例，要么是该用例流程的步骤。

每个用例如下所示：

简单的评估框架

1. GPT-4 Turbo 将担任第一位评委，根据我根据用例编写的评估提示，对每个答案进行满分 10 分的评分。

2.我本人担任第二位评委。

3. 每位评委将对答案进行满分 10 分的评分

4. 最终得分为两次得分的平均数。

制作和策划提示

在扩展每个用例的类别后，我必须仔细设计将提供给每个 LLM 的提示。不仅仅是创作提示，我知道如果我是唯一一个评估这些 LLM 的回复的人，那将是非常有偏见和不可靠的，所以我和那里最好的 LLM 联手了gpt-04-turbo。

现在，

每个类别的创建提示
每个类别的评估提示

评估将由另一个 LLM 进行，我知道这听起来很奇怪，但像MT-Bench这样的基准（请注意，这个评估与 MT-Bench 相差甚远）也使用强大的 LLM 作为评判者来自动化评估过程。

为了策划创作提示，我使用了提示工程技术，例如人员采用、明确的指示、思考时间和分隔的参考文本。

例如，

社交媒体文案提示：假设您是一家精品咖啡店的社交媒体经理，这家咖啡店以使用公平贸易的有机咖啡豆而自豪。您的目标是吸引经常光顾咖啡店作为社交中心的年轻时尚受众。制作一系列社交媒体帖子：— 用生动的视觉效果和诱人的描述介绍一种新的季节性混合咖啡

最低0.47元/天解锁文章

拉达曼迪斯II

关注

10
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
旷野之间12 - 内容创作用的最佳大模型评测

这是我手头上最重要的任务之一，结果如下：GPT 分数：我的分数：我对 Claude 模型生成的摘要质量感到惊讶。Claude Sonnet 和我也尝试过 Claude 3 Opus（他们最好的模型，但非常昂贵），Opus 的摘要结构严谨、注重细节，并尽可能地抓住了文档的精髓。经过微调后，这些模型的表现绝对非常好。获胜者：Gemini 1.5 Pro 和 Claude 3 Sonnet。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

拉达曼迪斯II 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。