DOMDocument in php
我刚刚开始阅读有关DOM的文档和示例,以便对文档进行爬行和解析。
例如,我有一部分文件如下所示:
Crap | ||||||
| ||||||
Crap | ||||||
Crap |
我试图使用以下代码获取所有tr标记并分析其中是否有垃圾或信息:$dom = new DOMDocument();@$dom->loadHTML($html);$xpath = new DOMXPath($dom);$tags = $xpath->query('.//div[@id="showContent"]');foreach ($tags as $tag) {
$string="";
$string=trim($tag->nodeValue);
if(strlen($string)>3) {
echo $string;
echo '
';
}}
但是,我只需要去掉没有标记的字符串,例如:CrapCrapTitleDescription
但我想知道:
Craptitle
如何保留html节点(标记)?