基于BERT_TextCNN新闻文本分类实战项目
1 数据集介绍
1)数据集:清华大学的 THUCNews 新闻文本分类数据集,训练集18w,验证集1w,测试集1w
2)10个类别:金融、房产、股票、教育、科学、社会、政治、体育、游戏、娱乐
2 模型介绍
选用的是 TextCNN 这个模型,来完成分类任务,并不是说只能用 TextCNN,选用其他模型比如 RNN、LSTM 都是可以的。
3 数据预处理
这部分有两个任务,一是导入数据集,二是要统计待分类的文本长度,因为 TextCNN 在卷积之后,要做批量最大池化操作,所以要求文本长度一致,不够的填充PAD,太长的要进行截取。
3.1 数据集加载
新建一个data文件夹,然后在其下面创建input文件夹,放置下载的数据(数据下载地址:http://thuctc.th