http://www.tartarus.org/~martin/PorterStemmer/
一个去掉英语同词根的算法。在数据挖掘中有点用。
感觉上来说,这个是我见过的描述文本分类的最通俗易懂的说明 。
文本分类具体方法:
*选取20K个文本,每个文本大于10K。
*用程序取出所有的词,列词表。进行一定的预处理,如去掉标点,(去掉停用词,这里需要停用词词表,简化同义词)。
*用程序生成文本向量arff文件。每一行是一个文本,包括:分类名、每一个单词出现的次数。这个文件估计有小1G。
*用weka打开。强烈建议用服务器。pc多半死机。
*最好先做spare,把稀疏矩阵转化一下。
*然后就可以做分类了。用nativeBayes或者神经网络法,选取不同训练集,算吧。。。