htmlParser解析网页链接问题

本人在使用htmlparser去分析网站的时候,发现有好多网页不能正确提取其中的链接,不知道怎么回事啊。求指导~~谢谢。

package com.susheng.MoneyMaker.DataExtract;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;

import com.susheng.MoneyMaker.Util.WebEncoding;

public class LinkExtract
{
	static String LinkURL = "";
	public static String getLink(String strURL) throws Exception
	{
		WebEncoding web = new WebEncoding();
		String Character = web.getCharset(strURL);
		Parser parser = new Parser(strURL);
		parser.setEncoding(Character);
		NodeList nodeList = parser.extractAllNodesThatMatch(new NodeFilter()
		{
			// 实现该方法,用以过滤标签
			public boolean accept(Node node)
			{
				if (node instanceof LinkTag)// 标记
					return true;
				return false;
			}
		});
		// 打印
		if (nodeList.size() == 0)
		{
			LinkURL = null;
			System.out.println("页面不存在链接");
		} else
			for (int i = 0; i < nodeList.size(); i++)
			{
				String TextTemp;
				LinkTag n = (LinkTag) nodeList.elementAt(i);
				TextTemp = n.getStringText();
				System.out.println(TextTemp);
				// if(TextTemp.contains(""))
				if (TextTemp.contains("联系我们"))
				{
					System.out.print(TextTemp + " ==>> ");
					LinkURL = n.extractLink();
				} else if (TextTemp.contains("联系方式"))
				{
					System.out.print(TextTemp + " ==>> ");
					LinkURL = n.extractLink();
				}
				else if(TextTemp.contains("联系"))
				{
					System.out.print(TextTemp + " ==>> ");
					LinkURL = n.extractLink();
				}
			}
		return LinkURL;
	}

	public static void main(String[] args) throws Exception
	{
		System.out.println(getLink("http://www.4006601002.com/"));
	}
}


程序源代码如上。运行结果是只有一个链接。页面中明明存在联系方式,但是却找不到。求原因~不胜感激。

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值