好长时间没写东西了,之前的两篇都是在写论文的过程中记录的,悲剧的是论文被拒了%>_<%,其中有审稿意见说对比实验有些薄弱,需要在更多的数据集上实验证明论点的有效性,就选择了Reuters-21578进行扩展实验。
数据集可以在这里下载到:http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
这里就简单记录一下数据集的一些信息,整理整理处理的过程。
Reuters-21578是一个英文的预料库,很多时候被用来做文本分类或其他相关研究。压缩包中真正的数据被存放在22个SGM文件中,可以用notepad直接打开查看,处理的时候直接按照文本文件处理会比较方便。
接下来的一部分内容在readme中都有,可以跳过:
一个文件的内容是这样的:
<!DOCTYPE lewis SYSTEM "lewis.dtd">