1.对于文本型数据的分类处理(或者其他的处理),根据ik和jcseg等分词器先对它们进行分词处理之后,大家都知道,计算机是处理不了汉字的,对于文本型的词我们如何才能让计算机处理呢?我们可以通过TF-IDF将文本型的数据向量化。对于TF-IDF的概念我就不再阐述,网上的资源非常多,这里我主要来看看是如何实现的。
2.测试数据的准备(pca.txt)
1,纵坐标 是 该词 在该 文章 中 的 权重
0,其 出发点 是 一个词 对于 分类 的 重要性 不但 取决于 其在 整个语料 中 出现 的 概率
0,那么 它 对于 分类 的 重要性 也是 不同 的
1,我们 是 祖国 的 接班人
0,其 出发点 是 一个词 对于 分类 的 重要性 不但 取决于 其在 整个语料 中 出现 的 概率
0,那么 它 对于 分类 的 重要性 也是 不同 的
1,我们 是 祖国 的 接班人
说明:,前面的是类别,后面的是伪造的一些分词的结构,通过空格分割,具体的一篇文章,可以通过分词器将其分割成这样的。
3.代码实现
LableWords.scala
package com.iflytek.classifier
import java.io.Serializable
case class LableWords(label:Str