dom原始解析html,DOMDocument解析HTML(而不是正则表达式)

由于信息有限,几乎没有任何示例,我发现PHP.net上的文档不太好,大多数细节都基于解析XML。

$dom = new DOMDocument;

libxml_use_internal_errors(true);

$dom->loadHTMLFile('http://www.nu.nl/internet/1106541/taalunie-keurt-open-sourcewoordenlijst-goed.html');

libxml_clear_errors();

$recipe = array();

$xpath = new DOMXPath($dom);

$contentDiv = $dom->getElementById('page'); // would have preferred getContentbyClass('content') (unique) in this case.

# title

print_r($xpath->evaluate('string(div/div/div/div/div/h1)', $contentDiv));

# content (this is not working)

#print_r($xpath->evaluate('string(div/div/div/div['content'])', $contentDiv)); // if only this worked

print_r($xpath->evaluate('string(div/div/div/div)', $contentDiv));

?>

出于测试目的,我试图获取nu.nl新闻文章的标题(h1标签)和内容(HTML)。

正如你所看到的,我可以得到标题,虽然我对评估字符串并不满意,因为它恰好是该div级别上唯一的h1标记。

2011-09-06

Dennis

+0

你为什么不在xpath字符串中搜索'h1'? –

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值