java正则掉坑实录

大学时候对正则很感兴趣,还特意学习了perl的《精通正则表达式》,平时开发中也会经常用到,但是都写的比较简单的正则,也没有太考虑效率,额是主Java语言的。

最近正好写了个抓取代理ip地址的程序,用到了正则匹配,本来挺简单的一个问题,但是对正则的贪婪和非贪婪匹配没有理解深刻,导致在上面耗了很长时间。

先简单说下贪婪和非贪婪匹配:

String regexGreedy = "<.*>"
String regexNoGreedy = "<.*?>"

String content = "<tr><td>abc</td><tr>"

上面第一个regexGreedy正则匹配到的是content全部内容,而第二个regexNoGreedy匹配到的是<tr>内容。 显而易见,一种是要最多,另一种是要最少

好了,其实问题很简单,但是实战中就有可能出现问题,以下是我的实战内容:

需求:我想抓取某个公布代理ip地址的网站上数据。 程序:

public class Proxy {
	
	private final static ConcurrentHashMap<String, Integer> ipMap = new ConcurrentHashMap<String, Integer>();
	
	public static Logger logger = Logger.getLogger(Proxy.class);
	
	//地址就不放上来了。。。
	private static String  proxyUrl = "xxx";
	
	private static Header header_Encode = new Header("Accept-Encoding","Accept-Encoding:gzip,deflate,sdch");

	/**
	 * 刷新代理ip
	 */
	public static void flush(){
		
		org.apache.commons.httpclient.HttpClient httpClient = new org.apache.commons.httpclient.HttpClient();
		GetMethod getMethod = new GetMethod(proxyUrl);
		getMethod.setRequestHeader(header_Encode);
		InputStream urlStream =null;
		BufferedReader reader = null;
		try {
			httpClient.executeMethod(getMethod);
			if(getMethod.getStatusLine().getStatusCode()==HttpStatus.SC_OK){
				System.out.println(getMethod.getRequestHeader("Accept-Encoding").getValue());
				try{
					urlStream = new GZIPInputStream(getMethod.getResponseBodyAsStream());
				}catch(IOException e){
					urlStream =  new BufferedInputStream(getMethod.getResponseBodyAsStream());
				}
				  
                reader = new BufferedReader(new InputStreamReader(urlStream,"utf-8"));  
                StringBuilder content = new StringBuilder();  
                String line = null;
                while((line = reader.readLine()) != null) {  
                	content.append(line);
                }
                //System.out.println(content.toString());
                parser(content.toString());
                  
			}
		} catch (HttpException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}finally{
			
			try {
				
				if(reader!=null){
					reader.close();
				}
				if(urlStream!=null){
					urlStream.close();
				}
			} catch (IOException e) {
				e.printStackTrace();
			}
            
		}
		
	}
	
	
	private static HashMap<String,Integer> parser(String content) {
		HashMap <String ,Integer> map = new HashMap<String,Integer> ();
		
		String regexBody = "<tbody>(.*)</tbody>";
		String regexTr ="<tr><td>([^<]*)</td><td>([0-9]*)</td>.*</tr>";
		Pattern pattern = Pattern.compile(regexBody);
		Matcher matcher = pattern.matcher(content);
		
		if(matcher.find()){
			content = matcher.group(1);
		}
		
		content = content.replaceAll("[\\s*\\n*\\s*]", "");
		System.out.println(content);
		pattern = Pattern.compile(regexTr,Pattern.MULTILINE | Pattern.DOTALL);
		matcher = pattern.matcher(content);
		
		String ip = "";
		Integer port = null;
		while(matcher.find()){
			
			try{
				ip = matcher.group(1);
				port = Integer.parseInt(matcher.group(2));
				map.put(ip, port);
				System.out.println("ip="+ip+"|port="+port);
			}catch(Exception e){
				logger.error(e.getMessage(),e);
			}
		}
		
		return map;

	}
	
	public  static void main(String[] args){
		Proxy.flush();
	}

}

程序比较简单,看一下大致都懂,但是我当时测试的时候无论怎么抓取都是抓取到网页上最后一组数据。 最终定位的问题就在正则匹配上: String regexTr ="<tr><td>([^<]*)</td><td>([0-9]*)</td>.*</tr>"; 这个正则是贪婪匹配,所以是要最多

修改后 String regexTr ="<tr><td>([^<]*?)</td><td>([0-9]*?)</td>.*?</tr>"; 为非贪婪匹配,就可以捕获到所有了。

问题很简单,贪婪和非贪婪概念我也都懂,但是要灵活的在实战中运用就需要多多使用正则,积累经验,争取下次不要再掉坑了。

转载于:https://my.oschina.net/OpenSourceBO/blog/486240

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值