【NLP入门-中文文本分类】步骤详解,附keras代码
一、NLP 文本分类步骤第一步:准备数据集,X:句子;Y:类别第二步:分词,并去除停词(中文理由停词,比如而且,逗号之类;英文的话需要做词的时态转换之类)第三步:word2idx/word2vec;这里word2vec,可以利用语料库,训练一个单词转为向量的model,这个模型你输入单词,会给你一个向量,并且能计算单词的相似度,相当于提前给词语做了归一化;word2idx就直接用词汇表的id作为向量的元素;第四步:建模训练二、代码1、数据准备➕预处理我们采用,头条新闻数据集
原创
2022-02-28 22:58:29 ·
3218 阅读 ·
0 评论