1、提取所有文档中非重复出现的实词,去除停当词,如的,和,地,得、是等; 2、用提取的非重复单词组成特征向量,格式如下: 单词编号 汉字词 ------------------ 1 阿 2 啊 3 阿斗 4 阿姨