1 数据来源
实验过程中,从中国期刊网上下载了600篇Web文档作为实验数据,实验数据中包括政治、经济、军事、法律、教育、体育、娱乐、科技、外语、计算机等10个主题,每个主题的数据包括60篇文档。再选择500篇文档作为训练集合。另外100篇作为测试集合。
2 数据预处理
对实验数据进行预处理及特征提取
SVD(Singular Value Decomposition) 奇异值分解 降维
3 设计网络拓扑结构
首先确定BP网络输出层神经元的个数,根据类别的个数来确定输出层神经元的个数.实验数据分别属于10个类,因此网络输出层神经元个数为10。输入层神经元的个数为文档在进行特征提取之后向量的维数,实验中,经过降维以后的每篇文档特征向量的维数为30。所以将网络的输入层神经元的个数选取为30。
隐含层神经元个数的选取往往取决于经验或多次实验.实验中采用如下公式:
n1=n+m−−−−−√+a
这里m和n为输入层神经元和输出层神经元的个数,这里a=2,因此隐含层神经元的个数为8。