文本分类 一、常见文本分类处理过程 1、语料(数据)的获取 2、数据预处理 1) 分词 2) 除去停用词 3、特征提取 二、关键词 TF-IDF:https://blog.csdn.net/asialee_bird/article/details/81486700 中文:词频-逆向文件频率。 应用定位:一种用于信息检索与文本挖掘的常用加权技术。 主要思想:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。