php 从html提取正文,php教程之PHP从HTML中提取正文类库

最新推荐文章于 2024-05-12 10:05:01 发布

hotwind4

最新推荐文章于 2024-05-12 10:05:01 发布

阅读量169

点赞数

文章标签： php 从html提取正文

Textractor

An efficient class library for extracting text from HTML.

一个高效的从HTML中提取正文的类库.

正文提取采纳了基于文本密度的提取算法,支持从压缩的HTML文档中提取正文,每个页面平均提取时间为30ms,正确率在95%以上.

特色标签无关,提取正文不依赖标签；

支持从压缩的HTML文档中提取正文内容；

支持带标签输出原始正文；

核心算法简洁高效,平均提取时间在30ms左右.

安装安装包文件composer require "mylukin/textractor:dev-master"添加 ServiceProvider 到您项目 config/app.php 中的 providers 部门:Lukin\Textractor\TextractorServiceProvider::class,创立配置文件:php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"

然后请修改 config/textractor.php 中对应的项即可.

使用<?php $url = 'http://news.163.com/17/0204/08/CCDTBQ9E000189FH.html';// 创立提取实例$textractor = new \Lukin\Textractor\Textractor();// 下载并解析文章$article = $textractor->download($url)->parse();printf('

URL: %s

' . PHP_EOL, $url);printf('

Title: %s

' . PHP_EOL, $article->getTitle());printf('

Publish: %s

' . PHP_EOL, $article->getPublishDate());printf('

Text:

%s

' . PHP_EOL, $article->getText());printf('

Content: %s

' . PHP_EOL, $article->getHTML());

地址：https://github.com/mylukin/Textractor

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php 从html提取正文,php教程之PHP从HTML中提取正文类库

TextractorAn efficient class library for extracting text from HTML.一个高效的从HTML中提取正文的类库.正文提取采纳了基于文本密度的提取算法,支持从压缩的HTML文档中提取正文,每个页面平均提取时间为30ms,正确率在95%以上.特色标签无关,提取正文不依赖标签；支持从压缩的HTML文档中提取正文内容；支持带标签输出原始正文；核心...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。