如何提取html 信息,提取HTML中的文本信息

本文介绍了一种方法,用于从HTML文本中提取纯文本信息,适用于手机显示或其他仅关注内容不考虑格式的情况。通过使用org.htmlparser库,遍历HTML节点并转换为纯文本字符串。
摘要由CSDN通过智能技术生成

有时候我们拿到一个HTML文本的时候我们并不在意它的格式,而只是想提取其中包含的文本信息。例如说为了在手机上显示一个超文本,如果直接显示的话那肯定会收到一大堆的错误,很多手机根本没有能力显示HTML信息,因此我们需要把存在于HTML中的文本提取出来并使用WML来重新组合以便手机可以正确的查看,这样做虽然丢失了格式,但是毕竟这种情况下更关心的是数据。下面给出一段程序完成这个功能,很简单!

/*

* Created on 2004-7-11

*/

package com.clickcom.wcp.util;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.util.NodeList;

/**

* 用于处理HTML信息的工具集合

* @author liudong

*/

public class HtmlUtils {

/**

* 抽取纯文本信息

* @param inputHtml

* @return

*/

public static String extractText(String inputHtml) throws Exception{

StringBuffer text = new StringBuffer();

Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"8859

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值