php dom类库,php解析html类库simple_html_dom(详细介绍)

最新推荐文章于 2021-06-10 18:04:02 发布

weixin_39645306

最新推荐文章于 2021-06-10 18:04:02 发布

阅读量167

点赞数

文章标签： php dom类库

下载地址：https://github.com/samacs/simple_html_dom解析器不仅仅只是帮助我们验证html文档；更能解析不符合W3C标准的html文档。它使用了类似jQuery的元素选择器，通过元素的id，class，tag等等来查找定位；同时还提供添...上传类文件以后，有三种方式调用这个类：从字符串中加载html文档

从文件中加载html文档

代码如下:<?php

// 新建一个Dom实例

$html = new simple_html_dom();

// 从url中加载

$html->load_file('http://www.jb51.net');

// 从字符串中加载

$html->load('

从字符串中加载html文档演示');

//从文件中加载

$html->load_file('path/file/test.html');

?>

如何避免解析器消耗过多内存

在本文的开篇中，笔者就提到了Simple HTML DOM解析器消耗内存过多的问题。如果php脚本占用内存太多，会导致网站停止响应等一系列严重的问题。解决的方法也很简单，在解析器加载html文档并使用完成后，记得清理掉这个对象就可以了。当然，也不要把问题看得太严重了。如果只是加载了2、3个文档，清理或不清理是没有多大区别的。当你加载了5个10个甚至更多的文档的时候，用完一个就清理一下内存绝对是对自己负责啦^_^，代码如下:<?php

$html->clear();

?>

如果从字符串加载html文档，需要先从网络上下载。建议使用cURL来抓取html文档并加载DOM中。

查找html元素可以使用find函数来查找html文档中的元素。返回的结果是一个包含了对象的数组。我们使用HTML DOM解析类中的函数来访问这些对象，下面给出几个示例：

代码如下:<?php

//查找html文档中的超链接元素

$a = $html->find('a');

//查找文档中第(N)个超链接，如果没有找到则返回空数组.

$a = $html->find('a', 0);

// 查找id为main的div元素

$main = $html->find('div[id=main]',0);

// 查找所有包含有id属性的div元素

$divs = $html->find('div[id]');

// 查找所有包含有id属性的元素

$divs = $html->find('[id]');

?>

还可以使用类似jQuery的选择器来查找定位元素：

代码如下:<?php

// 查找id='#container'的元素

$ret = $html->find('#container');

// 找到所有class=foo的元素

$ret = $html->find('.foo');

// 查找多个html标签

$ret = $html->find('a, img');

// 还可以这样用

$ret = $html->find('a[title], img[title]');

?>

解析器支持对子元素的查找

...

仅显示部分内容，浏览全部请登录。

登录 | 立即注册

weixin_39645306

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php dom类库,php解析html类库simple_html_dom(详细介绍)

下载地址：https://github.com/samacs/simple_html_dom解析器不仅仅只是帮助我们验证html文档；更能解析不符合W3C标准的html文档。它使用了类似jQuery的元素选择器，通过元素的id，class，tag等等来查找定位；同时还提供添...上传类文件以后，有三种方式调用这个类：从字符串中加载html文档从文件中加载html文档代码如下:...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。