Textractor
An efficient class library for extracting text from HTML.
一个高效的从HTML中提取正文的类库.
正文提取采纳了基于文本密度的提取算法,支持从压缩的HTML文档中提取正文,每个页面平均提取时间为30ms,正确率在95%以上.
特色标签无关,提取正文不依赖标签;
支持从压缩的HTML文档中提取正文内容;
支持带标签输出原始正文;
核心算法简洁高效,平均提取时间在30ms左右.
安装安装包文件composer require "mylukin/textractor:dev-master"添加 ServiceProvider 到您项目 config/app.php 中的 providers 部门:Lukin\Textractor\TextractorServiceProvider::class,创立配置文件:php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"
然后请修改 config/textractor.php 中对应的项即可.
使用<?php $url = 'http://news.163.com/17/0204/08/CCDTBQ9E000189FH.html';// 创立提取实例$textractor = new \Lukin\Textractor\Textractor();// 下载并解析文章$article = $textractor->download($url)->parse();printf('
%s
地址:https://github.com/mylukin/Textractor