yql 提取html,使用Yahoo YQL查询html

Nagesh Susar..

20

YQL要求xpath表达式计算为itemPath而不是节点文本.但是,一旦有了itemPath,就可以从树中投射各种值

换句话说,ItemPath应该指向生成的HTML中的Node而不是文本内容/属性.当您从数据中选择*时,YQL将返回所有匹配的节点及其子节点.

select * from html where url="http://stackoverflow.com" and xpath='//div/h3/a'

这将返回与xpath匹配的所有a.现在要投影文本内容,您可以使用它来投影

select content from html where url="http://stackoverflow.com" and xpath='//div/h3/a'

"content"返回节点内保存的文本内容.

对于投影属性,可以相对于xpath表达式指定它.在这种情况下,因为你需要相对于a的href.

select href from html where url="http://stackoverflow.com" and xpath='//div/h3/a'

这回来了

....

如果您同时需要属性'href'和textContent,则可以执行以下YQL查询:

select href, content from html where url="http://stackoverflow.com" and xpath='//div/h3/a'

收益:

double pointer const issue issue...

希望有所帮助.如果你对YQL有更多疑问,请告诉我.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值