Citeseer数据集有两个文件:.cites文件(节点关系)和.content文件(节点特征信息)。
主要出现的问题就是原本应该有3327个节点但是content文件中只有3312个节点信息,最简单的处理方式就是把cites文件中这多出的15个节点删掉就行。
197556
ghani01hypertext
38137
95786
nielsen00designing
flach99database
khardon99relational
kohrs99using
raisamo99evaluating
wang01process
hahn98ontology
tobies99pspace
293457
gabbard97taxonomy
weng95shoslifn
ctri+f 一个个搜索删除