雅虎近日宣布开源web爬虫工具Anthelion,该工具可以解析HTML页面中的结构化数据。
Web爬虫是雅虎的核心技术,因此雅虎在这个领域发布开源工具显得不同寻常。此前雅虎刚刚宣布将剥离一些核心业务(但不包括阿里巴巴的股份),此外雅虎首席执行官Marissa Mayer刚刚生下双胞胎。
去年在上海的一个信息知识管理会议上,雅虎曾在一篇论文中详细介绍了Anthelion。该论文的作者指出:“雅虎的爬虫技术开创了业界的先河,那就是专注于那些通过Microdata、Microformats或RDFa等markup语言嵌入HTML页面的语义数据。
Microdata和RDFa是标记不同结构化数据的句法格式,他们都兼容Schema.org的结构化数据词汇库,而Schema.org是谷歌、雅虎和Bing搜索引擎共同支持的项目。
雅虎研究人员还在论文中展示了Anthelion爬虫技术的部署如何提高了搜索查询的相关结果数量。
Anthelion的源代码目前已经托管到GitHub,作为Apache Nutch开源web爬虫项目的一个组件。
雅虎研究人员在Tumblr发博文指出,Anthelion能定向检索特定网页,例如那些使用markup标记电影名称和演员等至少两种属性的网页。