4个主流LLM的内容创作能力评估

我正在做一个项目,需要我找出最适合内容创作的 LLM。我查看了 lmsys 排行榜上的顶级模型,阅读了其他人对这些模型的评价,查看了顶级 LLM 的模型卡,在没有明确答案的情况下,我决定对所有这些 LLM 进行测试,以完成不同的内容创作任务。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 

1、要评估的模型

我想评估的模型(考虑到它们的成本、易用性和 lmsys 排行榜上的排名):

  • Llama-3–70b
  • Mixtral-8x7B
  • Gemini 1.5 Pro
  • Claude 3 Sonnet

以下是我所做的……

首先,我将内容创作领域分为 5 个不同的用例:

  • 博客写作
  • 电子邮件写作
  • 文案写作——包括广告、搜索引擎优化、网站、技术和社交媒体
  • 脚本写作
  • 内容摘要

在每个用例中,我创建了多个类别,这些类别要么是子用例,要么是该用例流程的步骤。

每个用例如下所示:

2、简单的评估框架

GPT-4 Turbo 将作为第一位评委,根据我根据用例编写的评估提示,对每个答案进行满分 10 分的评分。

我自己担任第二位评委。

每位评委将对答案进行满分 10 分的评分

最终得分是 2 个分数的平均值。

3、制作和策划提示

在扩展每个用例的类别后,我必须仔细制作将提供给每个 LLM 的提示。不仅仅是创作提示,我知道如果我是唯一一个评估这些 LLM 答案的人,那将是非常有偏见和不可靠的,所以我与最好的 LLM gpt-04-turbo 联手。

现在,将会有,

  • 每个类别的创建提示
  • 每个类别的评估提示

其中评估将由另一个 LLM 完成,我知道这听起来很奇怪,但像 MT-Bench 这样的基准(请注意,这次评估与 MT-Bench 相差甚远)也使用强大的 LLM 作为评委来自动化评估过程。

为了策划创作提示,我使用了提示工程技术,例如人员采用、清晰的说明、思考时间和分隔的参考文本。

例如,

社交媒体文案提示:假设你是一家精品咖啡店的社交媒体经理,这家咖啡店以使用公平贸易的有机咖啡豆而自豪。你的目标是吸引经常光顾咖啡店作为社交中心的年轻时尚受众。制作一系列社交媒体帖子:— 用生动的视觉效果和诱人的描述介绍一种新的季节性混合咖啡。— 宣传即将举行的现场音乐晚会,突出舒适的氛围和优质的咖啡。— 分享客户对他们最喜欢的咖啡和学习场所的评价。确保每篇帖子都引人入胜,使用对话语气,并包含可提高知名度和推动互动的主题标签。

评估提示也使用了类似的技术和框架进行评估。我将每个评估标准分为 5 个部分,每个部分价值 2 分,部分满足标准则进行部分评分。

示例:

社交媒体文案响应评估提示:你是专业的文案撰稿人和编辑。根据以下标准对以下社交媒体文案(下面用三重引号分隔)进行 10 分制评分,其中每个点有 2 分,如果大纲未能完全捕捉到该元素,则给 0 分,如果大纲部分涵盖该元素,则给 1 分,如果大纲完全涵盖该标准的所有本质,则给 2 分:评估社交媒体文案的以下元素:—  相关性:内容是否与当前趋势、热门标签和受众兴趣一致?—  对话语气:文案是否使用友好、随意的语气,引起社交媒体用户的共鸣?—  视觉冲击:文案是否提到使用引人入胜的视觉效果(例如图像、视频或 GIF)来提高参与度? —  简洁性:文案是否简短、简洁,一目了然? —  可分享性:内容是否以鼓励点赞、分享和评论的方式制作,以扩大影响力? “””{text}”””

所有 22 个类别都进行了此项测试。

4、生成和评估

现在是生成和评估响应的时候了。

  • 我使用 Groq 评估了 Llama-3–70b 和 Mixtral-8x7B。
  • Google Vertex 的 AI Studio 评估了 Gemini 1.5 Pro 和
  • Anthropic 的工作台和聊天来评估他们的 Claude 模型。

为了进行评估,我使用了 chatgpt,默认情况下它使用 gpt-4-turbo。

以下是我按类别得到的结果:

4.1 博客写作

GPT 的评估分数:

我的评估分数:

然后将以上两个分数的平均数作为最终得分:

博客写作评选 — Llama-3–70B

Llama-3–70b 得分 48.5,其大纲非常详尽,能够从参考文本中学习,并且具有高质量的文本生成能力,最终成为赢家。

Sonnet 和 Gemini 也给出了很好的回答,但 Llama 的回答具有人们在阅读真实文本时所寻找的细微差别或对细节的更多关注。

4.2 电子邮件写作

这是一个有点令人失望的类别,部分原因是提示,我应该花更多精力来制作更详细的电子邮件提示,但是,它们对所有人来说都是一样的,所以让我们看看结果:

GPT 分数:

我的分数:

最终分数:

电子邮件写作的评价——Llama-3–70B

同样,Llama-3–70b 以 41.5 分(满分 50 分)的表现优于其竞争对手,但我对质量和现代电子邮件写作实践并不十分满意,我们优先考虑简洁和直接的回复,但考虑到提示,他们做得相当不错。

4.3 文案撰写

在文案撰写方面,所有模型都表现得相当不错。

GPT 得分:

我的得分:

最终得分:

文案撰写评价 — Llama-3–70B

llama-3 的质量和遵循指令的能力都很不错。它抓住了提示中的每个小细节,因此不仅在 GPT 的评估中得分很高,而且我还发现文案更详细、更有条理、更连贯、更有吸引力。

4.4 剧本写作

GPT 分数:

我的分数:

最终分数:

剧本写作评价——Llama-3–70b

所有模型在制作初稿时都表现得相当不错,但需要大量改进才能跟上另一位作者的写作风格,这是我这次错过的,但肯定会检查的。

我们有 3 个获胜者。Llama-3–70B、Claude-3-Sonnet 和 Gemini 1.5 Pro。

4.5 内容摘要

这是我手头上最重要的任务之一,结果如下:

GPT 分数:

我的分数:

最终分数:

内容摘要评价——Claude 和 Gemini 1.5 Pro

Claude 模型生成的摘要质量让我感到惊讶。Claude Sonnet 和我也尝试过 Claude 3 Opus(他们最好的模型,但非常昂贵),Opus 的摘要结构严谨、注重细节,尽可能地抓住了文档的精髓。经过微调后,这些模型的表现绝对非常好。

获胜者:Gemini 1.5 Pro 和 Claude 3 Sonnet

5、最终获胜者 — Llama-3–70b

总分为 220 分,得分 199.5 分,Llama-3–70b 在内容创作方面总体表现优异。

  • Claude 3 Sonnet 得分:191.25。总结和剧本写作方面表现良好。
  • Gemini 1.5 Pro 得分:194。总结和剧本写作方面表现良好。
  • Mixtral 8x7b 得分:181.5。有点不合适,最好试试 Mixtral 8x22b。

原文链接:LLM内容创作能力评估 - BimAnt

  • 8
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SQLAlchemy 是一个 SQL 工具包和对象关系映射(ORM)库,用于 Python 编程语言。它提供了一个高级的 SQL 工具和对象关系映射工具,允许开发者以 Python 类和对象的形式操作数据库,而无需编写大量的 SQL 语句。SQLAlchemy 建立在 DBAPI 之上,支持多种数据库后端,如 SQLite, MySQL, PostgreSQL 等。 SQLAlchemy 的核心功能: 对象关系映射(ORM): SQLAlchemy 允许开发者使用 Python 类来表示数据库表,使用类的实例表示表中的行。 开发者可以定义类之间的关系(如一对多、多对多),SQLAlchemy 会自动处理这些关系在数据库中的映射。 通过 ORM,开发者可以像操作 Python 对象一样操作数据库,这大大简化了数据库操作的复杂性。 表达式语言: SQLAlchemy 提供了一个丰富的 SQL 表达式语言,允许开发者以 Python 表达式的方式编写复杂的 SQL 查询。 表达式语言提供了对 SQL 语句的灵活控制,同时保持了代码的可读性和可维护性。 数据库引擎和连接池: SQLAlchemy 支持多种数据库后端,并且为每种后端提供了对应的数据库引擎。 它还提供了连接池管理功能,以优化数据库连接的创建、使用和释放。 会话管理: SQLAlchemy 使用会话(Session)来管理对象的持久化状态。 会话提供了一个工作单元(unit of work)和身份映射(identity map)的概念,使得对象的状态管理和查询更加高效。 事件系统: SQLAlchemy 提供了一个事件系统,允许开发者在 ORM 的各个生命周期阶段插入自定义的钩子函数。 这使得开发者可以在对象加载、修改、删除等操作时执行额外的逻辑。
SQLAlchemy 是一个 SQL 工具包和对象关系映射(ORM)库,用于 Python 编程语言。它提供了一个高级的 SQL 工具和对象关系映射工具,允许开发者以 Python 类和对象的形式操作数据库,而无需编写大量的 SQL 语句。SQLAlchemy 建立在 DBAPI 之上,支持多种数据库后端,如 SQLite, MySQL, PostgreSQL 等。 SQLAlchemy 的核心功能: 对象关系映射(ORM): SQLAlchemy 允许开发者使用 Python 类来表示数据库表,使用类的实例表示表中的行。 开发者可以定义类之间的关系(如一对多、多对多),SQLAlchemy 会自动处理这些关系在数据库中的映射。 通过 ORM,开发者可以像操作 Python 对象一样操作数据库,这大大简化了数据库操作的复杂性。 表达式语言: SQLAlchemy 提供了一个丰富的 SQL 表达式语言,允许开发者以 Python 表达式的方式编写复杂的 SQL 查询。 表达式语言提供了对 SQL 语句的灵活控制,同时保持了代码的可读性和可维护性。 数据库引擎和连接池: SQLAlchemy 支持多种数据库后端,并且为每种后端提供了对应的数据库引擎。 它还提供了连接池管理功能,以优化数据库连接的创建、使用和释放。 会话管理: SQLAlchemy 使用会话(Session)来管理对象的持久化状态。 会话提供了一个工作单元(unit of work)和身份映射(identity map)的概念,使得对象的状态管理和查询更加高效。 事件系统: SQLAlchemy 提供了一个事件系统,允许开发者在 ORM 的各个生命周期阶段插入自定义的钩子函数。 这使得开发者可以在对象加载、修改、删除等操作时执行额外的逻辑。
GeoPandas是一个开源的Python库,旨在简化地理空间数据的处理和分析。它结合了Pandas和Shapely的能力,为Python用户提供了一个强大而灵活的工具来处理地理空间数据。以下是关于GeoPandas的详细介绍: 一、GeoPandas的基本概念 1. 定义 GeoPandas是建立在Pandas和Shapely之上的一个Python库,用于处理和分析地理空间数据。 它扩展了Pandas的DataFrame和Series数据结构,允许在其中存储和操作地理空间几何图形。 2. 核心数据结构 GeoDataFrame:GeoPandas的核心数据结构,是Pandas DataFrame的扩展。它包含一个或多个列,其中至少一列是几何列(geometry column),用于存储地理空间几何图形(如点、线、多边形等)。 GeoSeries:GeoPandas中的另一个重要数据结构,类似于Pandas的Series,但用于存储几何图形序列。 二、GeoPandas的功能特性 1. 读取和写入多种地理空间数据格式 GeoPandas支持读取和写入多种常见的地理空间数据格式,包括Shapefile、GeoJSON、PostGIS、KML等。这使得用户可以轻松地从各种数据源中加载地理空间数据,并将处理后的数据保存为所需的格式。 2. 地理空间几何图形的创建、编辑和分析 GeoPandas允许用户创建、编辑和分析地理空间几何图形,包括点、线、多边形等。它提供了丰富的空间操作函数,如缓冲区分析、交集、并集、差集等,使得用户可以方便地进行地理空间数据分析。 3. 数据可视化 GeoPandas内置了数据可视化功能,可以绘制地理空间数据的地图。用户可以使用matplotlib等库来进一步定制地图的样式和布局。 4. 空间连接和空间索引 GeoPandas支持空间连接操作,可以将两个GeoDataFrame按照空间关系(如相交、包含等)进行连接。此外,它还支持空间索引,可以提高地理空间数据查询的效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值