解析HTML页面中的结构化数据,雅虎开源web爬虫工具Anthelion,能解析网页结构化数据...

c5aafd153de7452e6d633ea1bd3dfdd1.png

雅虎近日宣布开源web爬虫工具Anthelion,该工具可以解析HTML页面中的结构化数据。

Web爬虫是雅虎的核心技术,因此雅虎在这个领域发布开源工具显得不同寻常。此前雅虎刚刚宣布将剥离一些核心业务(但不包括阿里巴巴的股份),此外雅虎首席执行官Marissa Mayer刚刚生下双胞胎。

去年在上海的一个信息知识管理会议上,雅虎曾在一篇论文中详细介绍了Anthelion。该论文的作者指出:“雅虎的爬虫技术开创了业界的先河,那就是专注于那些通过Microdata、Microformats或RDFa等markup语言嵌入HTML页面的语义数据。

Microdata和RDFa是标记不同结构化数据的句法格式,他们都兼容Schema.org的结构化数据词汇库,而Schema.org是谷歌、雅虎和Bing搜索引擎共同支持的项目。

雅虎研究人员还在论文中展示了Anthelion爬虫技术的部署如何提高了搜索查询的相关结果数量。

Anthelion的源代码目前已经托管到GitHub,作为Apache Nutch开源web爬虫项目的一个组件。

雅虎研究人员在Tumblr发博文指出,Anthelion能定向检索特定网页,例如那些使用markup标记电影名称和演员等至少两种属性的网页。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值