使用libtidy解析html文档的小例子一个

#ifndef PARSEPAGE_HPP
#define PARFSPAGE_HPP
#include <string>
#include <vector>
#include <tidy/buffio.h>
#include <tidy/fileio.h>
#include <tidy/tidy.h>
#include <tidy/tidyenum.h>
#include <tidy/platform.h>

//! 解析html页面 
class ParsePage
{
public:
    typedef std::vector<std::string> String;
public:
    ParsePage(int rank = 0,const std::string& cur = ""):rank(rank),cur(cur)
    {
        doc = tidyCreate();
        root = tidyGetRoot(doc);
    }
    ~ParsePage()
    {
        tidyRelease(doc);
    }
public:
    //! 解析给定文件
    bool LoadFile(const char* file)
    {    
        return 1 == tidyParseFile(doc,file);
    }
    //!解析给定内存
    bool LoadBuffer(const char* buffer)
    {   
        return 1 == tidyParseString(doc,buffer);
    }
    //! 内容解析
    void Check()
    {   
        CheckHref(root);
    }
    //! 获取链接
    int GetLinkNumber()const{return links.size();}
    std::string GetLinkByIndex(int index){return links.at(index);} 
private:
    void DoHref(TidyAttr attr);
    void CheckHref(TidyNode node);
private:
    TidyDoc     doc;
    TidyNode    root;
    std::string cur;
    int         rank;
    String      links;
};

#endif
//! ccsdu2004


 libtidy是一个开源的用来诊断,分析,生成html文档的一个库
下面的例子是使用libtidy获取页面链接的例子
代码如下:

 

#include <boost/algorithm/string.hpp>
#include "parsepage.hpp"

void ParsePage::DoHref(TidyAttr attr)
{
    std::string href(tidyAttrValue(attr));
    //! 邮箱地址
    if(boost::algorithm::starts_with(href,"mailto:"))
    {
    }
    //! 链接地址
    else
    {
        if(boost::algorithm::starts_with(href,"http:"))
        {
            size_t itr = href.find_last_of('#');
            if(itr != std::string::npos)
            {
                href = href.substr(0,itr);
            }
        }
        else
        {   
            if(boost::algorithm::contains(href,"#"))
                return;
        }
    
        links.push_back(href);
    }
}

void ParsePage::CheckHref(TidyNode node)
{
    TidyNode child;
    for(child = tidyGetChild(node);child;child = tidyGetNext(child))
    {
        TidyAttr attr = tidyAttrGetHREF(child);
        if(attr)
        {
            DoHref(attr);
        }
        CheckHref(child);
    }
}这个对象比较简单
调用Check之后所有的页面链接在links中



 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值