目录
文本分类问题,需要我们根据每句的字符进行分类,但是有些赛题给出的数据是匿名化的,不能直接使用中文分词等操作。
因此,如果我们要对匿名字符进行建模,进而完成文本分类的过程,由于文本数据是一种非结构化数据,因此可能涉及到特征提取与分类模型两个部分,其思路大致如下:
1 TF-IDF + 机器学习分类器
直接使用TF-IDF对文本进行特征提取,并使用分类器进行分类,在分类器的选择上,可以使用SVM、LR、XGBoost
2 FastText
FastText是入门款的词向量,利用Facebook提供的FastText工具,可以快速构建出分类器
3 WordVec+深度学习分类器
WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM(