广告行业中那些趣事系列82:大模型应用调研之给雅思作文打分

导读:本文是“数据拾光者”专栏的第八十二篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本文主要调研了大模型应用在雅思作文打分场景中的实践。
欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。
知乎专栏:数据拾光者
公众号:数据拾光者
df842f431aaab7870c3264faff54879d.jpeg

本篇主要是调研了大模型应用在雅思作文场景中的应用实践,主要调研了雅思作文一些公开实用的数据集,还调研了一些大模型应用在雅思场景中自动化打分作文方法论文以及当前可用的一些雅思作文打分的现场的方案。感兴趣的小伙伴可以一起沟通。

01 背景介绍

最近因为某种“机缘巧合”下想用大模型来给雅思作文进行打分,这里花了一些时间调研了一下相关的数据集以及竞品(现有的产品),这里做一个完整的记录。随着教育行业慢慢复苏,这一整套方案可以方便的移植到其他类似场景,还是蛮有意义的。

02 雅思作文公开数据集

2.1 雅思作文公开数据集主要包括以下几个

  • IELTS Writing Scored Essays Dataset:这是一个在Kaggle上可用的数据集,包含了超过1200篇雅思写作考试的样本作文,每篇作文都附有考官的评论和整体评分。数据集还包括任务类型、题目、作文内容和考官评论等详细信息。这个数据集是雅思写作部分的宝贵资源,可以用于自然语言处理(NLP)和机器学习模型的训练和研究。https://www.kaggle.com/datasets/mazlumi/ielts-writing-scored-essays-dataset

  • ELLIPSE语料库:包含 9,000 篇由美国 8 至 12 年级学生撰写的论文,这些样本对各种语言的整体语言能力和分析能力进行评分,维度包括衔接、句法、词汇、短语、语法和惯例。ELLIPSE 语料库提供详细的语言能力分数,有助于对语言能力的总体和具体方面进行评估。 数据集论文:Scott Crossley, Yu Tian, Perpetual Baffour, Alex Franklin, Youngmeen Kim,Wesley Morris, Meg Benner, Aigner Picou, and Ulrich Boser. The english language learner insight, proficiency and skills evaluation (ellipse) corpus.International Journal of Learner Corpus Research, 9(2):248–269, 2023

  • IELTS(国际英语语言测试系统)考试数据集:包含来自国际英语语言的论文测试系统(雅思)。该数据集包括提示、论文本身以及六个维度的分数:任务成就、连贯性和凝聚力、词汇量、语法和总分。该数据集特别有价值,因为它反映了高风险语言评估中使用的现实世界评分标准。为了我们的目的,训练数据集包括 14,500 篇论文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值