JAVA htmlParser解析

package com.ljt.html.parse;

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Date;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Set;

import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.util.NodeList;

public class ParseTest {
	public static HashMap<String, Integer> OmitMap = new HashMap<String, Integer>();
	public static ArrayList<ParserResultDT> parseArrayList = new ArrayList<ParserResultDT>();
	public static void main(String[] args) throws ParseException {
		begin();
	}
	
	public static void begin(){
		init();
		htmlParser();
		
		ArrayList<ParserResultDT> testResult = parseArrayList;
		ArrayList<String> allType =  getAllType();
		for(int i=0;i<testResult.size();i++){
			autoAddOmit();
			
			ParserResultDT  testDT = testResult.get(i);
			ArrayList<ArrayList<String>> tempSet = changeToSet(testDT.getResultSet());
			
			for(ArrayList<String> s:tempSet){
				 for(int k=0;k<s.size();k++){
					 if(allType.contains(s.get(k))){
							//System.out.println("contains:"+s.get(k));
						 if(OmitMap.get(s.get(k))>20){
							 System.out.println(s.get(k)+":"+OmitMap.get(s.get(k)));
						 }
							OmitMap.put(s.get(k), 0);
						}
				 }
			}
		}
		
		Iterator<String> key = OmitMap.keySet().iterator();
		while(key.hasNext()){
			String mapKey = key.next();
			System.out.println("key:"+mapKey+",value:"+ OmitMap.get(mapKey));
		}
		
	}
	
	
	
	public static void autoAddOmit(){
		Set<String> keySet = OmitMap.keySet();
		Iterator<String> key = keySet.iterator();
		while(key.hasNext()){
			String mapKey = key.next();
			OmitMap.put(mapKey, OmitMap.get(mapKey)+1);
		}
	}
	
	public static void init(){
		for(int i=1;i<=10;i++){
			for(int j=i+1;j<=11;j++){
				String name=""+(i<10?"0"+i:i)+(j<10?"0"+j:j);
				OmitMap.put(name, 0);
			}
		}
//		System.out.println("OmitMap:"+OmitMap.size());
		
	}
	
	private static ArrayList<ArrayList<String>> changeToSet(ArrayList<String> resultList) {
		
//		for(String s:resultList){
//			System.out.print(s+",");
//		}
		
		ArrayList<ArrayList<String>> result = new ArrayList<ArrayList<String>>();
		ArrayList<String> set = null;
		 for(int i=0;i<resultList.size()-1;i++){
			 for(int j=i+1;j<resultList.size();j++){
				 int ivalue = Integer.parseInt(resultList.get(i));
				 int jvalue = Integer.parseInt(resultList.get(j));
				 String ball = ""+(ivalue<10?"0"+ivalue:ivalue)+(jvalue<10?"0"+jvalue:jvalue);
				 
				 set = new ArrayList<String>();
				 set.add(ball);
				 result.add(set);
			 }
			 
		 }
		 
//		 for(ArrayList<String> s:result){
//			 for(int k=0;k<s.size();k++)
//				System.out.print(s.get(k)+",");
//		}
		 
		return result;
	}

	public static ArrayList<ParserResultDT> getParserResult(){
		ArrayList<ParserResultDT> parseArrayList = new ArrayList<ParserResultDT>();
		ParserResultDT resultDT = new ParserResultDT();
		//first
		ArrayList<String> list = new ArrayList<String>();
		list.add("10");
		list.add("03");
		list.add("01");
		list.add("11");
		list.add("08");
		Collections.sort(list);
		resultDT.setSeq("2014102301");
		resultDT.setResultSet(list);
		parseArrayList.add(resultDT);
		
		//second
		list = new ArrayList<String>();
		list.add("11");
		list.add("06");
		list.add("02");
		list.add("07");
		list.add("09");
		Collections.sort(list);
		resultDT = new ParserResultDT();
		resultDT.setSeq("2014102302");
		resultDT.setResultSet(list);
		parseArrayList.add(resultDT);
		return parseArrayList;
	}
	
	
	public static ArrayList<String> getAllType(){
		ArrayList<String> set = new ArrayList<String>();
		for(int i=1;i<=10;i++){
			for(int j=i+1;j<=11;j++){
				String name=""+(i<10?"0"+i:i)+(j<10?"0"+j:j);
				set.add(name);
			}
		}
		System.out.println("set size:"+set.size());
		
//		for(String s:set){
//			System.out.println(s);
//		}
		return set; 
	}
	
	
	public static void htmlParser(){
		ParserResultDT resultDT = null;
		ArrayList<String> list = null;
		
        String url = "http://chart.11x5w.com/dlc/zoushi/inc/dlc_fb.aspx";
        SimpleDateFormat df = new SimpleDateFormat("yyMMdd");
		String date  = df.format(new Date());
		
        try{
            Parser parser = new Parser(url);
            NodeClassFilter filter = new NodeClassFilter(TextNode.class);
            NodeList nodes = parser.extractAllNodesThatMatch(filter); 
            
            if(nodes!=null) {
                for (int i = 0; i < nodes.size(); i++) {
                    Node textnode = (Node) nodes.elementAt(i);
                    String text = textnode.getText();
                    if(text.startsWith(date)){
                    	String node1 = ((Node) nodes.elementAt(i+1)).getText();
                    	String node2 = ((Node) nodes.elementAt(i+2)).getText();
                    	String node3 = ((Node) nodes.elementAt(i+3)).getText();
                    	String node4 = ((Node) nodes.elementAt(i+4)).getText();
                    	String node5 = ((Node) nodes.elementAt(i+5)).getText();
                    	
                    	resultDT = new ParserResultDT();
                		list = new ArrayList<String>();
                		list.add(node1);
                		list.add(node2);
                		list.add(node3);
                		list.add(node4);
                		list.add(node5);
                		resultDT.setSeq(text);
                		resultDT.setResultSet(list);
                		parseArrayList.add(resultDT);
                    	
                    	i=i+5;
                    }
                }
            }   
            System.out.println("parseArrayList:"+parseArrayList.size());
        } catch( Exception e ) {     
            e.printStackTrace();
        }
		
	}

}

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值