网页正文抽取（三）——boilerpipe算法

coder1479

已于 2022-03-16 20:07:39 修改

阅读量2k

点赞数

分类专栏：信息抽取文章标签： java 网络爬虫

于 2022-03-16 20:06:17 首次发布

本文链接：https://blog.csdn.net/m0_48742971/article/details/122658479

版权

信息抽取专栏收录该内容

17 篇文章

订阅专栏

本文详细介绍了Boilerpipe，一个高精度的网页正文抽取库，其核心是决策树算法，通过链接密度和文本密度特征进行内容判断。在处理中文网页时，需要对分词方法进行改进。Boilerpipe被广泛应用于信息抽取工具，如Tika。文章还探讨了算法的改进点和适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

Boilerpipe是一个非常优秀的网页正文抽取库，作者是Christian Kohlschütter，在抽取新闻和博客正文时，准确率非常高，基本开箱即用，著名的信息抽取工具Tika也使用了Boilerpipe作为网页内容自动提取的第三方库，还有很多python用户对其进行了封装。

1. 算法效果展示

（注：这里使用的是改进后的算法，具体改进请参考后文。）
使用Boilerpipe自带的测试的测试模块对效果进行测试，测试数据选择了人民网的一篇财经类新闻。

public class Oneliner {
    public static void main(final String[] args) throws Exception {

        final URL url =
                new URL("http://finance.people.com.cn/n1/2021/0303/c1004-32041507.html");

        System.out.println(ArticleExtractor.INSTANCE.getText(url));
    }
}

在这里插入图片描述
提取正文如下：

可见提取准确率非常高，基本开箱即用。

2. 核心代码解读

论文地址：

http://www.l3s.de/~kohlschuetter/publications/wsdm187-kohlschuetter.pdf

代码地址：

http://code.google.com/p/boilerpipe/

算法的核心是决策树，论文中提到作者选择了很多特征完成决策树的训练，但是最终在剪枝阶段，把大部分的特征都去掉了，保留了很少的特征。

public boolean process(TextDocument doc) throws BoilerpipeProcessingException {
        return TerminatingBlocksFinder.INSTANCE.process(doc) | 
        (new DocumentTitleMatchClassifier(doc.getTitle())).process(doc) | 
        DensityRulesClassifier.INSTANCE.process(doc) | 
        ChineseTerminatingBlocksFinder.INSTANCE.process(doc) | 
        //略
        LargeBlockSameTagLevelToContentFilter.INSTANCE.process(doc) | 
        ListAtEndFilter.INSTANCE.process(doc);
    }

DensityRulesClassifier就是决策树的实现类。
可以看到决策树使用的特征分别是链接密度和文本密度。这两个密度在网页正文抽取领域非常常用，但是作者通过决策树算法，把最佳的密度给跑出来了，所以效果很好。

protected boolean classify(TextBlock prev, TextBlock curr, TextBlock next) {
        boolean isContent;
        if ((double)curr.getLinkDensity() <= 0.333333D) {
            if ((double)prev.getLinkDensity() <= 0.555556D) {
                if (curr.getTextDensity() <= 9.0F) {
                    if (next.getTextDensity() <= 10.0F) {
                        if (prev.getTextDensity() <= 4.0F) {
                            isContent = false;
                        } else {
                            isContent = true;
                        }
                    } else {
                        isContent = true;
                    }
                } else if (next.getTextDensity() == 0.0F) {
                    isContent = false;
                } else {
                    isContent = true;
                }
            } else if (next.getTextDensity() <= 11.0F) {
                isContent = false;
            } else {
                isContent = true;
            }
        } else {
            isContent = false;
        }

        return curr.setIsContent(isContent);
    }

链接密度和文本密度的计算方式如下。

# 文本密度：行的总词语数量/行数量
textDensity = numWordsInWrappedLines / (float) numWrappedLines;

# 链接密度：链接文本的词语数量/总词语数量
linkDensity = numWords == 0 ? 0 : numWordsInAnchorText / (float) numWords;