网页抽取技术和算法

本文详细介绍了网页抽取技术,包括基于正则表达式、CSS选择器和机器学习的方法。强调了机器学习在网页正文抽取中的优势,并讨论了不同类型的机器学习算法,如基于启发式规则、分类器和网页模板自动生成。文中还提醒注意训练集的选择和特征设计对抽取效果的影响。
摘要由CSDN通过智能技术生成

网页抽取技术和算法,持续更新。本文由WebCollector提供,转载请标明出处。

目录:

一. 网页抽取简介

网页抽取在大多数情况下,指提取网页中的结构化数据。网页抽取技术近十几年方法和工具变化都较快。

常见的网页抽取方法有 :

  • 基于正则表达式的网页抽取
  • 基于CSS选择器的网页抽取
  • 基于XPATH的网页抽取
  • 基于机器学习的网页抽取

由于CSS选择器和XPATH都是网页DOM树的特征,切较为相似,本教程不介绍基于XPATH的网页抽取。本文会着重介绍基于机器学习的网页抽取。


二. 基于正则表达式的网页抽取

利用正则表达式进行网页抽取,是在html源码的基础上做字符串级别的检索。要详细了解如何利用正则表达式进行网页抽取,只要了解正则表达式的基本用法即可,与网页特征无关。

基于正则表达式的网页抽取有下面几个缺点:

  • 正则表达式不直观,维护较为困难
  • 对于复杂的页面,正则规则编写较为复杂
  • 正则表达式是字符串级别的信息检索,并没有利用网页的特征(例如DOM树中的CSS选择器或XPATH)

由于上面这些缺点,我们不推荐使用正则表达式进行网页抽取。因此这里我们只举一个简单的例子演示正则抽取。

原网页为:

<html>
    <body>
        <h2>(标题)此内容不要被抽取</h2>
        <div class="main">
            (正文)此内容要被抽取
        </div>
        <div class="foot">
            (页脚)此内容不要被抽取
        </div>
    </body>
</html> 

在html中我们描述了待抽取的内容。

  String html="<html><body>" +
                "<h2>(标题)此内容不要被抽取</h2>" +
                "<div class=\"main\">(正文)此内容要被抽取</div>" +
                "<div class=\"foot\">(页脚)此内容不要被抽取</div>" +
                "</body></html>";

        //正则表达式中的点(.)代表任意字符,星号(*)代表出现任意次,
        //因此.*表示任意字符串(包括空字符串)
        //.*?中的问号(?)表示.*(任意字符串)的长度尽可能短,
        //如果没有这个限制,抽取结果将变为:
        //(正文)此内容要被抽取</div><div class="foot">(页
        //脚)此内容不要被抽取
        Pattern pattern=Pattern.compile("<div class=\"main\">(.*?)</div>");


        if(matcher.find()){
            //正则表达式里的括号代表group,group(0)代表整个正则表
            //达式匹配的内容,group(n)代表第n个括号中的内容
            System.out.println(
  • 4
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值