一个超简单的中文文本分类模型(附源码)
在本案例中,我们将训练一个中文文本分类模型。所用到的数据集根据新浪新闻rss订阅频道的历史数据筛选生成;数据集包含10个分类:‘体育’, ‘财经’, ‘房产’, ‘家居’, ‘教育’, ‘科技’, ‘时尚’, ‘时政’, ‘游戏’, ‘娱乐’。文件总览:data目录:存放用于文本分类模型用于训练和测试的数据。checkpoint目录:存放训练之后的权重文件;train.py:模型训练代码;predict.py:模型测试代码;preprocess.py:data数据集的预处理代码;
原创
2024-09-22 10:42:02 ·
118 阅读 ·
0 评论