对DBpedia各子数据集特点分析

对DBpedia各子数据集特点分析

数据地址见DBPedia官网。

Mainly From DataSet 3.0  ,一般同样的数据集,版本越新,size越大。

 

 

article_categories 2.0GB 关系只有一种类型,二分图,主语和谓语没有交集,形如:

主                 谓                 宾

 

Image 1.3GB ,每5行描述一个Image,为一个单元,单元与单元之间没有关联,sample如下:

<<images_1.3G_sample_and_Chinese_description.nt>>

 

 

Links to Wikipedia Article preview ) 300M

单一谓语,主语和宾语间没有交集。

 

 

Labels 1.0G PageId 1.6G,  Revision 1.7G, short_abstract 10+G  形如:

主1 - 谓 - 属性1

主2 - 谓 - 属性2

….

只有一种谓语。

 

以下数据集同样猜测为单一谓语:

Titles ( preview )

From <https://wiki.dbpedia.org/data-set-30>

Extended Abstracts ( preview )

From <https://wiki.dbpedia.org/data-set-30>

External Links ( preview )

From <https://wiki.dbpedia.org/data-set-30>

Homepages ( preview )

From <https://wiki.dbpedia.org/data-set-30>

 

 

Infoboxproperties 

每两行为一个单元,单元与单元之间没有连接。

 

Geographic Coordinates preview )

主语宾语没有交集

From <https://wiki.dbpedia.org/data-set-30>

 

Properties 8.4M

 

specific_mappingbased_properties 82M

谓语有多种。

宾语全部都是属性,形如"777000.0"^^<http://dbpedia.org/datatype/kilogram>

 

Pagelinks 

3.3GB  每三行描述一个Page为一个单元,单元与单元之间没有关联,sample如下:

<<wikipedia_links_en_sample_and_chineseDescription.nt>>

 

Persondata 

7M 每三行描述一个Person,为一个单元,单元与单元之间没有关联。

 

Cleanded Wikipedia Category Class (CWCC) Hierarchy ( preview ) (experimental/buggy)

From <https://wiki.dbpedia.org/data-set-30>   主语和谓语间没有交集

 

CWCC Hierarchy Instances ( preview )   150M

From <https://wiki.dbpedia.org/data-set-30>  

主语和谓语间没有交集。 主语和宾语间没有交集。   谓语有三种。 CSV文件。 不是以Url形式存在。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值