获取html网页中的body部分内容

1.导入htmlparser.jar架包

2./**
     * 获取HTML页面中BODY标签的内容
     * @param inputHTML
     *
     * @return void [返回类型说明]
     * @throws [违例类型] [违例说明]
     * @since NLP V100R001C01
     */
    public static String getHtmlBody(String inputHTML)
    {
        StringBuilder strBu = new StringBuilder();
        Parser parser = new Parser();
        try
        {
            parser.setInputHTML(inputHTML);
            parser.setEncoding(parser.getURL());
           
            HtmlPage page = new HtmlPage(parser);
            parser.visitAllNodesWith(page);
           
            NodeList list = page.getBody();
            for (NodeIterator iterator = list.elements(); iterator.hasMoreNodes();)
            {
                Node node = iterator.nextNode();
                String html = node.toHtml();
                strBu.append(html);
            }
        }
        catch (ParserException e)
        {
            logger.error("getHtmlBody() excute  ParserException....");
        }
        //System.out.println(strBu.toString());
        return strBu.toString();
    }


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值