最近用BERT进行中文数据集的文本分类,针对的数据集有THUCnews 和 one-classes。遇到的坑如下:
1. 针对数据集处理时,应该shuttle打乱。数据集是按照类别排序的。
import random
random.shuttle(lines)
2. 会再数据集的output文件夹下保存断点,下次默认从断点开始训练。因此重新训练需要删除output中的数据。
3、 出现“1689 段错误 (核心已转储)” 发现是numpy格式太老。仔细一看,发现忘记source activate tensorflow1进入anaconda新环境了。