HtmlParser编程

HtmlParser是一个强大的工具,用于处理互联网上的HTML页面,它支持遍历所有节点、筛选特定标签,并能将HTML内容转化为纯文本。
摘要由CSDN通过智能技术生成

HtmlParser 提供了强大的类库来处理 Internet 上的网页,可以实现对网页特定内容的提取和修改。

1.循环迭代所有节点

/**
	 * 迭代所有节点
	 * @param list
	 * @param keyword
	 */
	public static void processNodeList(NodeList list, String keyword){
		SimpleNodeIterator iterator = list.elements();
		while(iterator.hasMoreNodes()){
			Node node = iterator.nextNode();
			//得到该节点的子节点列表
			NodeList childList = node.getChildren();
			//孩子节点为空,说明是值节点
			if(childList == null){
				//得到值节点的值
				String result = node.toPlainTextString();
				//若包含关键字。则简单打印文本
				if(result.indexOf(keyword) != -1){
					System.out.println(result);
				}
			}
			else {
				processNodeList(childList,keyword);
			}
		}
	}
2.过滤关键字

/**
	 * 循环访问所有节点,输出包含关键字的值节点
	 * @param url
	 * @param keyword
	 */
	public static void ex
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值