今天接到一个数据公司的电话,目的是问问我能不能做兼职的数据标记,或者如果有更充足的经历也可以带一整个兼职译员团队,主要工作内容就是把AI翻译过来的短句进行打分标记甚至是润色,以打到优化数据集的目标。以更优质的数据训练AI,那训练后的AI,翻译出来的内容就很准确了。
咋说呢,其实我是挺抗拒的。
因为做兼职翻译这么多年了,近一两年接触到的几个兼职翻译群,名曰兼职翻译群,但群内完全不派翻译项目,转而是组织群内几十上百译员进行数据标记工作。群里人员流动量还挺大的,但是具体每个人的水平如何就很难评说了。因为我入群的时候也仅仅是看了看简历,没有人对我进行测试。那谁能保证标记出来的数据,能够达到所谓的“母语水平”呢?更别提数据标记的费用按条计算,折算到每一天也就那么多,以薪水来反推译员质量也能得出一些结论。
在今天的电话中我提出一个疑问,就是对于专业领域的翻译是需要译员具备一定的专业背景知识的,至少是要熟悉一些专业术语,能找到这么多这样的译员吗?对方表示只是处理一些日常的、基础类的内容。但说实话我是对此比较怀疑的,因为能听出来对方作为一家不懂翻译的数据公司,其实也判断不出来哪些内容涉及到了专业领域只是。
以上,也就佐证了为什么我在用AI翻译一些内容的时候,会出现了大量的前后翻译不一致,术语使用不当的情况,而且AI还会自圆其说说服你相信它,甚至给出一些虚构出来的依据。看来问题就出在大模型本身还没有那么强大+数据标记有问题。(不太懂AI大模型的逻辑,欢迎指正)
当下AI发展迅猛确实是个好事,也给了很多人机会,尤其是投机者的机会。这次训练的模型好像是阿里、字节等互联网巨头的,与我电话沟通的公司也在打着北京的几个公司的旗号与大厂对接,但实则在多次询问之下才知道是一家郑州的公司。我感觉这事儿估计最后又变成了分包,一拖二三四五六的事情,层层剥皮到最后,译员这里也就剩下个辛苦费了。至于质量?整个链条上真正懂英语,甚至是专业术语的人处在链条最底端,又有谁能为质量保证呢。最后受伤的,可能就是中国的AI用户,甚至整个中国的AI发展环境了。
想起我在济南合作的翻译公司,专注在电力领域一扎就是30年,手上的客户不是国网、南网、法国电力等等电力产业巨头,也要沉淀多年才敢拿出自己储备已久的过往达到出版物级别的翻译文件作为语料,耗时数年才基于东北大学的机器翻译模型,开发出一款成熟的机电领域的机器翻译。到现在面对deepseek,也是慎之又慎,希望能够真正的组织语言专家和行业专业去进行数据清洗数据标注,我觉得这样的公司才是真的在为中国的人工智能发展做贡献。有机电领域或者是其他能源、通信相关的机器翻译需求的朋友可以私我,我来帮大家对接~(之前也发文推荐过他们公司的术语中英词典工具,感兴趣的可以看看我往期内容)
当然了,也许对于日常类、基础类的翻译,可能随便找点人就行了。没准是我杞人忧天~