我刚刚开始阅读有关DOM的文档和示例,以便抓取并解析文档。
例如我有一部分文件如下所示:
Crap | ||||||
| ||||||
Crap | ||||||
Crap |
我试图使用以下代码来获取所有的tr标签,并分析其中是否有垃圾或信息:
$dom = new DOMDocument();
@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$tags = $xpath->query('.//div[@id="showContent"]');
foreach ($tags as $tag) {
$string="";
$string=trim($tag->nodeValue);
if(strlen($string)>3) {
echo $string;
echo '
';
}
}
但是,我没有标签,只是被剥离的字符串,例如:
Crap
Crap
Title
Description
但我想得到:
Crap如何保留html节点(标签)?