WDC超链接图:涵盖35亿网页、1280亿超链接

转载 2013年12月03日 18:11:11

摘要:曼海姆大学研究人员公开了据称是目前最大规模的网络超链接图,涵盖35亿个网页和1280亿个超链接。

近日,曼海姆大学研究人员公开了一个巨型的网络超链接图(Web Data Commons Hyperlink Graph),以便于公众进行网络研究。这个网络图是从Common Crawl(一个提供网络爬虫数据的非营利性组织) 2012年语料库中提取的,涵盖35亿个网页和1280亿个超链接,很可能是现在最大的公开可用图。

这个图对于进行网络分析以及从事以下研究工作的人员将有很大的帮助:

  1. 搜索算法,并根据网页之间的超链接进行排名;
  2. 垃圾邮件检测方法,识别出“欺骗”搜索引擎的网页;
  3. 图分析算法,可以用超链接图来测试工具的扩展性\和性能;
  4. 在特定的局部领域的网络科学和链接模式,目的是识别管理这些领域的社会机制。

这些超链接图提供了4个不同级别的聚合:

  1. 页面级图:每个节点及其所有细节,代表一个单一的web页面,每个弧代表两页之间的一个超链接;
  2. 子域级别图:通过子域聚合页面图。在图中的每个节点表示一个特定子域 (像research.dws.uni-mannheim.de) ,如果分属不同子域间的页面存在至少一个超链接,则两个子域间存在弧;
  3. 第一级子域图:每个节点都代表一个第一级子域名(如dws.uni-mannheim.de ),所有下方的子域聚合到该域;
  4. Pay级别域图:每个节点代表一个Pay级别域 (置于uni-mannheim.de),如果分属不同Pay级别域间的页面存在至少一个超链接,则弧存在。


各级别图的规模如下:

页面图:35.63亿个节点,1287.36亿个弧

子域图:1.01亿个节点,20.43亿个弧

第一级子域图:0.95亿个节点,19.37亿个弧

Pay级别域图:0.43亿个节点,6.23亿个弧

其它公开的超链接图和网络爬虫数据集合:

另外,Laboratory for Web AlgorithmsStanford Large Network Dataset Collection也提供类似的超链接图数据,但是相比WDC Hyperlink Graph,数据规模较小、也较旧。(编译/李新宇 审校/周小璐)

原文链接:WDC Huge Web Graph - 128 billion hyperlinks - publicly available


第七届中国大数据技术大会(Big Data Technology Conference 2013,BDTC 2013)将于2013年12月5日-6日在北京世纪金源大酒店召开。Spark核心设计者、Databricks创始人兼CEO Ion Stoica,Apache HBase项目管理委员会主席Michael Stack、百度大数据首席架构师林仕鼎、华为公司诺亚方舟实验室主任杨强、Apache Tez commiter Bikas Saha大数据技术专家领衔,来自腾讯、阿里巴巴、Hortonworks、LinkedIn、小米、Intel等50余位工程师带来近60场干货分享,更有《中国智能交通与大数据技术峰会》专场感受智能交通如何改变生活。 

JS设置网页超链接的title!!

  • 2008年11月22日 19:44
  • 3KB
  • 下载

网页制作超链接

  • 2015年05月12日 12:54
  • 49KB
  • 下载

latex 参考文献 natbib, biblatex 引用网页,超链接

在使用 natbib 工具包管理参考文献时, 引用网页比较麻烦,因为格式不好调整。经过了不少摸索,自己总结一些技巧心得。 1. 网址中的下划线要注意写成 \_, 而不是直接复制 _, 否则会...

Python Show-Me-the-Code 第 0009 题 提取网页中的超链接

第 0009 题:一个HTML文件,找出里面的链接。思路:对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的。但是我发现一个问题,如果直接提取a标签的hr...

网页超链接设计

  • 2012年12月12日 10:20
  • 1.18MB
  • 下载

第6章 网页超链接

  • 2012年01月21日 21:02
  • 538KB
  • 下载

[032] 微信公众帐号开发教程第8篇-文本消息中使用网页超链接

本文主要介绍网页超链接的作用以及如何在文本消息中使用网页超链接。 网页超链接的作用 我想但凡是熟悉HTML的朋友,对超链接一定不会陌生。而今天我们要讨论和使用的只是超链接中的其...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:WDC超链接图:涵盖35亿网页、1280亿超链接
举报原因:
原因补充:

(最多只允许输入30个字)