由于信息有限,几乎没有任何示例,我发现PHP.net上的文档不太好,大多数细节都基于解析XML。
$dom = new DOMDocument;
libxml_use_internal_errors(true);
$dom->loadHTMLFile('http://www.nu.nl/internet/1106541/taalunie-keurt-open-sourcewoordenlijst-goed.html');
libxml_clear_errors();
$recipe = array();
$xpath = new DOMXPath($dom);
$contentDiv = $dom->getElementById('page'); // would have preferred getContentbyClass('content') (unique) in this case.
# title
print_r($xpath->evaluate('string(div/div/div/div/div/h1)', $contentDiv));
# content (this is not working)
#print_r($xpath->evaluate('string(div/div/div/div['content'])', $contentDiv)); // if only this worked
print_r($xpath->evaluate('string(div/div/div/div)', $contentDiv));
?>
出于测试目的,我试图获取nu.nl新闻文章的标题(h1标签)和内容(HTML)。
正如你所看到的,我可以得到标题,虽然我对评估字符串并不满意,因为它恰好是该div级别上唯一的h1标记。
2011-09-06
Dennis
+0
你为什么不在xpath字符串中搜索'h1'? –