摘要
网上所公布的中文预训练模型基本采用了词级别的形式,表现出来就是在输入预处理阶段,中文先被分词,然后嵌入为向量。对于领域类的文本处理,分词的预处理反而依赖分词工具,对于术语词语存在被意外切分的情况,直接破坏原有语义。因此曾经在研究生期间,针对领域类的自然语言处理,尝试用字符级别的形式训练Albert语言模型,下游任务指标也有一定的提升。
本文将以字符级别对Albert语言模型进行预训练,并进行应用。
模型准备
本文的albert模型使用如下命令进行下载:
git clone https://github.com/lonePatient/albert_pytorch
然后安装好必要的依赖。
(新的模型不需要了)停用分词预处理
对项目中的model/tokenization_albert.py文件的convert_by_vocab函数,直接改为:
def convert_by_vocab(vocab,itmes):
<