获取html网页中的body部分内容

最新推荐文章于 2022-10-19 18:38:29 发布

hedan_hd

最新推荐文章于 2022-10-19 18:38:29 发布

阅读量6.2k

点赞数

分类专栏：网络编程--HttpClient 文章标签： html string iterator list c

本文链接：https://blog.csdn.net/hedan_hd/article/details/8005023

版权

网络编程--HttpClient 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.导入htmlparser.jar架包

2./**
     * 获取HTML页面中BODY标签的内容
     * @param inputHTML
     *
     * @return void [返回类型说明]
     * @throws [违例类型] [违例说明]
     * @since NLP V100R001C01
     */
    public static String getHtmlBody(String inputHTML)
    {
        StringBuilder strBu = new StringBuilder();
        Parser parser = new Parser();
        try
        {
            parser.setInputHTML(inputHTML);
            parser.setEncoding(parser.getURL());

            HtmlPage page = new HtmlPage(parser);
            parser.visitAllNodesWith(page);

            NodeList list = page.getBody();
            for (NodeIterator iterator = list.elements(); iterator.hasMoreNodes();)
            {
                Node node = iterator.nextNode();
                String html = node.toHtml();
                strBu.append(html);
            }
        }
        catch (ParserException e)
        {
            logger.error("getHtmlBody() excute ParserException....");
        }
        //System.out.println(strBu.toString());
        return strBu.toString();
    }