c 抓取html 内容,htmlcxx c抓取html

最新推荐文章于 2023-06-07 20:43:18 发布

weixin_39637203

最新推荐文章于 2023-06-07 20:43:18 发布

阅读量156

点赞数

文章标签： c 抓取html 内容

我已经从不同的人那里读到了许多关于库来抓取

HTML的不同问题.我决定使用htmlcxx,因为它看起来很简单,它在Ubuntu存储库中.无论如何,在玩htmlcxx时,我试图实现一个简单的任务并在标题标签之间抓取文本.使用迭代器,it-> text()返回标记本身,它 – > textClosing()返回标记的结束.我的问题是,我如何获得标签之间的数据？我的意思是,必须有一种方法,为什么要使一个库来抓取HTML而没有这个功能？如果有人能指出我正确的方向,我会很感激.

你可以看看我到目前为止用svn做了什么：

svn co svn：//yunices.dyndns.org/repository/nich/trunk.

这是有问题的特定片段：

void node::get_headings() {

tree<:html::node>::iterator it = dom.begin();

tree<:html::node>::iterator end = dom.end();

for (; it != end; ++it) {

static const boost::regex expression("[h|H][1-6]");

if(boost::regex_search(it->tagName(), expression)) {

it->parseAttributes();

std::cout << it->text() << "<=>" << it->closingText() << std::endl;

std::map<:string std::string> pairs = it->attributes();

for ( std::map<:string std::string>::const_iterator iter = pairs.begin();

iter != pairs.end(); ++iter ) {

std::cout << iter->first << ":" << iter->second << "\n";

}

}

}

}

weixin_39637203

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
c 抓取html 内容,htmlcxx c抓取html

我已经从不同的人那里读到了许多关于库来抓取HTML的不同问题.我决定使用htmlcxx,因为它看起来很简单,它在Ubuntu存储库中.无论如何,在玩htmlcxx时,我试图实现一个简单的任务并在标题标签之间抓取文本.使用迭代器,it-> text()返回标记本身,它 – > textClosing()返回标记的结束.我的问题是,我如何获得标签之间的数据？我的意思是,必须有一种方法,为什...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。