Python 实现小型文本分类系统

最新推荐文章于 2024-09-10 06:58:53 发布

w_yuqing

最新推荐文章于 2024-09-10 06:58:53 发布

阅读量1.9k

点赞数 1

分类专栏：【自然语言处理】文章标签： NLP

本文链接：https://blog.csdn.net/w_yuqing/article/details/100883343

版权

最近在做微信公众号采集开发，将要对公众号文章数据（mysql里），进行文本分类，查了很多资料，找到一篇适合新手的一篇博文：https://blog.csdn.net/github_36326955/article/details/54891204，本人提供了人工分好类的文章训练集语料库（1000多篇）和测试集语料库（11篇），和大家一起学习。

一、中文文本分类流程

1、预处理
2、中文分词
3、结构化表示–构建词向量空间
4、权重策略–TF-IDF
5、分类器选择
6、评价

二，具体细节

1，预处理

# 公众号文章类别
d_category = {'1': '人工智能', '2': '人文社科', '3': '信息系统', '4': '先进防御', '5': '兵器', '6': '农业', '7': '前沿交叉', '8': '反恐安全',
          '9': '基础科学', '10': '教育', '11': '核生化', '12': '模拟仿真', '13': '海战装备', '14': '生物医学', '15': '电子元器件',
          '16': '空战装备', '17': '管理与政策', '18': '经济', '19': '综合保障', '20': '网络空间', '21': '能原材料', '22': '航天',
          '23': '试验鉴定', '24': '防务策略', '25': '其他', '26': '太空探索', '27': '招标采购', '28': '区块链', '29': '地理科学'
          }

1.1，得到训练集语料库

即已经分好类的文本资料（例如：语料库里是一系列已经分词的txt文章，这些文章按照实际内容归入到不同分类的目录中，为了方便演示，如上所有分类都用数字代表，如 .\1\21.txt），下载链接:https://pan.baidu.com/s/1NgkcztR0d-QPRn9toM1wCA 提取码: dw8h ，将下载的语料库解压后，请自己修改文件名和路径，例如路径可以设为 ./train_corpus/，其下则是各个类别目录如：./train_corpus/1，……，\train_corpus\2