这个分词主要针对的是英文,其中在speechbrain.tokenizers.SentencePiece文件中有一个open读取操作,其默认的是gbk,而自己保存的文件格式是utf-8,所以这个文件读取时会出现乱码情况,所以将所有open,添加
encoding="utf-8"
而且需要注意,分词相关的文件,一定不能错,以前的错误文件会对自己造成干扰
做个记录,方便以后查看
这个分词主要针对的是英文,其中在speechbrain.tokenizers.SentencePiece文件中有一个open读取操作,其默认的是gbk,而自己保存的文件格式是utf-8,所以这个文件读取时会出现乱码情况,所以将所有open,添加
encoding="utf-8"
而且需要注意,分词相关的文件,一定不能错,以前的错误文件会对自己造成干扰
做个记录,方便以后查看