网页抽取技术和算法

最新推荐文章于 2024-05-13 04:30:24 发布

AJAXHu

最新推荐文章于 2024-05-13 04:30:24 发布

阅读量1.3w

点赞数 4

分类专栏： webcollector 文章标签：网页抽取网页正文抽取机器学习网页自动抽取网络爬虫

本文链接：https://blog.csdn.net/AJAXHu/article/details/48382381

版权

本文详细介绍了网页抽取技术，包括基于正则表达式、CSS选择器和机器学习的方法。强调了机器学习在网页正文抽取中的优势，并讨论了不同类型的机器学习算法，如基于启发式规则、分类器和网页模板自动生成。文中还提醒注意训练集的选择和特征设计对抽取效果的影响。

摘要由CSDN通过智能技术生成

网页抽取技术和算法，持续更新。本文由WebCollector提供，转载请标明出处。

一. 网页抽取简介

网页抽取在大多数情况下，指提取网页中的结构化数据。网页抽取技术近十几年方法和工具变化都较快。

常见的网页抽取方法有 :

基于正则表达式的网页抽取
基于CSS选择器的网页抽取
基于XPATH的网页抽取
基于机器学习的网页抽取

由于CSS选择器和XPATH都是网页DOM树的特征，切较为相似，本教程不介绍基于XPATH的网页抽取。本文会着重介绍基于机器学习的网页抽取。

二. 基于正则表达式的网页抽取

利用正则表达式进行网页抽取，是在html源码的基础上做字符串级别的检索。要详细了解如何利用正则表达式进行网页抽取，只要了解正则表达式的基本用法即可，与网页特征无关。

基于正则表达式的网页抽取有下面几个缺点：

正则表达式不直观，维护较为困难
对于复杂的页面，正则规则编写较为复杂
正则表达式是字符串级别的信息检索，并没有利用网页的特征（例如DOM树中的CSS选择器或XPATH）

由于上面这些缺点，我们不推荐使用正则表达式进行网页抽取。因此这里我们只举一个简单的例子演示正则抽取。

原网页为：

<html>
    <body>
        <h2>(标题）此内容不要被抽取</h2>
        <div class="main">
            （正文）此内容要被抽取
        </div>
        <div class="foot">
            （页脚）此内容不要被抽取
        </div>
    </body>
</html>

在html中我们描述了待抽取的内容。

  String html="<html><body>" +
                "<h2>(标题）此内容不要被抽取</h2>" +
                "<div class=\"main\">（正文）此内容要被抽取</div>" +
                "<div class=\"foot\">（页脚）此内容不要被抽取</div>" +
                "</body></html>";

        //正则表达式中的点(.)代表任意字符，星号(*)代表出现任意次，
        //因此.*表示任意字符串(包括空字符串)
        //.*?中的问号(?)表示.*(任意字符串)的长度尽可能短，
        //如果没有这个限制，抽取结果将变为：
        //（正文）此内容要被抽取</div><div class="foot">（页
        //脚）此内容不要被抽取
        Pattern pattern=Pattern.compile("<div class=\"main\">(.*?)</div>");


        if(matcher.find()){
            //正则表达式里的括号代表group，group(0)代表整个正则表
            //达式匹配的内容，group(n)代表第n个括号中的内容
            System.out.println(

最低0.47元/天解锁文章

AJAXHu

关注

4
点赞
踩
25

收藏

觉得还不错? 一键收藏
4
评论
网页抽取技术和算法

网页抽取技术和算法，持续更新。本文由WebCollector提供，转载请标明出处。目录：网页抽取简介基于正则表达式的网页抽取基于CSS选择器的网页抽取基于机器学习的网页抽取一. 网页抽取简介网页抽取在大多数情况下，指提取网页中的结构化数据。网页抽取技术近十几年方法和工具变化都较快。常见的网页抽取方法有 :基于正则表达式的网页抽取基于CSS选择器的网页抽取基于XPATH的网页抽取基于
复制链接

扫一扫