大模型词表扩充必备工具SentencePiece

本文介绍了SentencePiece工具,它是一种无监督的文本tokenizer和detokenizer,常用于大模型的词表扩展。SentencePiece支持BPE和Unigram等子词算法,能平衡词表大小和语义表达能力。文章详细讲解了SentencePiece的原理、特性、技术优势,并提供了安装和训练模型的步骤,强调了其在中文词表扩展中的应用价值。
摘要由CSDN通过智能技术生成

背景

随着ChatGPT迅速出圈,最近几个月开源的大模型也是遍地开花。目前,开源的大语言模型主要有三大类:ChatGLM衍生的大模型(wenda、ChatSQL等)、LLaMA衍生的大模型(Alpaca、Vicuna、BELLE、Phoenix、Chimera等)、Bloom衍生的大模型(Bloomz、BELLE、Phoenix等)。其中,ChatGLM-6B主要以中英双语进行训练,LLaMA主要以英语为主要语言的拉丁语系进行训练,而Bloom使用了46种自然语言、13种编程语言进行训练。

模型 训练数据量 模型参数 训练数据范围 词表大小 分词算法 分词器(Tokenizer)后端
LLaMA 1T~1.4T tokens(其中,7B/13B使用1T,33B/65B使用1.4T) 7B~65B 以英语为主要语言的拉丁语系 3
SentencePiece是一种用于分词和构建词表工具,而TextCNN是一个用于文本分类的模型。通过将二者结合,我们可以实现利用SentencePiece构建词表并使用TextCNN进行情感分析任务。 首先,我们使用SentencePiece工具对输入的文本进行分词处理。这个工具可以将句子切分为子词,并且可以根据文本的特点和需求进行自定义调整,如合并相似的词或将一些常用的词组合并为一个词。通过这一步骤,我们可以将文本转换为子词序列表示。 然后,我们将生成的子词序列作为输入,构建一个TextCNN模型。TextCNN模型由多层的卷积神经网络组成,通过卷积操作和池化操作来提取文本的特征。在每个卷积层中,我们可以设定多个卷积核,每个卷积核可以识别不同的特征模式。随后,将得到的特征进行池化操作,得到文本的固定长度的表示。最后,通过全连接层和softmax函数,将固定长度的表示映射为情感类别的概率分布。 在训练过程中,我们使用已标记好的情感类别的训练数据进行模型训练,并通过反向传播算法来更新模型的参数。在测试过程中,我们将待分析的文本输入到TextCNN模型中,利用模型输出的概率分布来判断文本的情感类别。 通过将SentencePiece和TextCNN相结合,我们可以构建一个能够处理分词和情感分析任务的模型。这样的模型在处理未知词汇和不规范文本时具有一定的鲁棒性,并且能够有效利用文本中的局部特征进行情感的判断。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值