网页抽取技术和算法,持续更新。本文由WebCollector提供,转载请标明出处。
目录:
一. 网页抽取简介
网页抽取在大多数情况下,指提取网页中的结构化数据。网页抽取技术近十几年方法和工具变化都较快。
常见的网页抽取方法有 :
- 基于正则表达式的网页抽取
- 基于CSS选择器的网页抽取
- 基于XPATH的网页抽取
- 基于机器学习的网页抽取
由于CSS选择器和XPATH都是网页DOM树的特征,切较为相似,本教程不介绍基于XPATH的网页抽取。本文会着重介绍基于机器学习的网页抽取。
二. 基于正则表达式的网页抽取
利用正则表达式进行网页抽取,是在html源码的基础上做字符串级别的检索。要详细了解如何利用正则表达式进行网页抽取,只要了解正则表达式的基本用法即可,与网页特征无关。
基于正则表达式的网页抽取有下面几个缺点:
- 正则表达式不直观,维护较为困难
- 对于复杂的页面,正则规则编写较为复杂
- 正则表达式是字符串级别的信息检索,并没有利用网页的特征(例如DOM树中的CSS选择器或XPATH)
由于上面这些缺点,我们不推荐使用正则表达式进行网页抽取。因此这里我们只举一个简单的例子演示正则抽取。
原网页为:
<html>
<body>
<h2>(标题)此内容不要被抽取</h2>
<div class="main">
(正文)此内容要被抽取
</div>
<div class="foot">
(页脚)此内容不要被抽取
</div>
</body>
</html>
在html中我们描述了待抽取的内容。
String html="<html><body>" +
"<h2>(标题)此内容不要被抽取</h2>" +
"<div class=\"main\">(正文)此内容要被抽取</div>" +
"<div class=\"foot\">(页脚)此内容不要被抽取</div>" +
"</body></html>";
//正则表达式中的点(.)代表任意字符,星号(*)代表出现任意次,
//因此.*表示任意字符串(包括空字符串)
//.*?中的问号(?)表示.*(任意字符串)的长度尽可能短,
//如果没有这个限制,抽取结果将变为:
//(正文)此内容要被抽取</div><div class="foot">(页
//脚)此内容不要被抽取
Pattern pattern=Pattern.compile("<div class=\"main\">(.*?)</div>");
if(matcher.find()){
//正则表达式里的括号代表group,group(0)代表整个正则表
//达式匹配的内容,group(n)代表第n个括号中的内容
System.out.println(