Rdf数据集预处理
Rdf在用Jena 读入前,一定要做一下预处理,因为并不是所有的rdf数据集遵循rdf标准,主要表现在以下三方面:
-
subject 不是url,而是字符串,例如下图中<rdf:Description rdf:about="CMUGradNg,_TzeSingEugene">
在这种情况下,必须在文件头中添加xml:base 标签,例如:
xml:base="http://www.pku.edu.cn/technologies/ontology"
-
property 不是url,而是字符串,例如上例中的<hasResearchArea>CMUSCS_ResearchArea_Artificial_Intelligence</hasResearchArea>。
在这种情况下,必须在文件头中添加xmlns="" 标签,例如
-
subject 不是合法的url,里面含有冒号(:)或者百分号(%),在使用Jena时,要将这些字符去掉。