php 从html提取正文,php教程之PHP从HTML中提取正文类库

Textractor

An efficient class library for extracting text from HTML.

一个高效的从HTML中提取正文的类库.

正文提取采纳了基于文本密度的提取算法,支持从压缩的HTML文档中提取正文,每个页面平均提取时间为30ms,正确率在95%以上.

特色标签无关,提取正文不依赖标签;

支持从压缩的HTML文档中提取正文内容;

支持带标签输出原始正文;

核心算法简洁高效,平均提取时间在30ms左右.

安装安装包文件composer require "mylukin/textractor:dev-master"添加 ServiceProvider 到您项目 config/app.php 中的 providers 部门:Lukin\Textractor\TextractorServiceProvider::class,创立配置文件:php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"

然后请修改 config/textractor.php 中对应的项即可.

使用<?php $url = 'http://news.163.com/17/0204/08/CCDTBQ9E000189FH.html';// 创立提取实例$textractor = new \Lukin\Textractor\Textractor();// 下载并解析文章$article = $textractor->download($url)->parse();printf('

URL: %s
' . PHP_EOL, $url);printf('
Title: %s
' . PHP_EOL, $article->getTitle());printf('
Publish: %s
' . PHP_EOL, $article->getPublishDate());printf('
Text:
%s
' . PHP_EOL, $article->getText());printf('
Content: %s
' . PHP_EOL, $article->getHTML());

地址:https://github.com/mylukin/Textractor

a9b5e84ec4745f222e7097577a08307e.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值