package com.ljt.html.parse;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Date;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Set;
import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.util.NodeList;
public class ParseTest {
public static HashMap<String, Integer> OmitMap = new HashMap<String, Integer>();
public static ArrayList<ParserResultDT> parseArrayList = new ArrayList<ParserResultDT>();
public static void main(String[] args) throws ParseException {
begin();
}
public static void begin(){
init();
htmlParser();
ArrayList<ParserResultDT> testResult = parseArrayList;
ArrayList<String> allType = getAllType();
for(int i=0;i<testResult.size();i++){
autoAddOmit();
ParserResultDT testDT = testResult.get(i);
ArrayList<ArrayList<String>> tempSet = changeToSet(testDT.getResultSet());
for(ArrayList<String> s:tempSet){
for(int k=0;k<s.size();k++){
if(allType.contains(s.get(k))){
//System.out.println("contains:"+s.get(k));
if(OmitMap.get(s.get(k))>20){
System.out.println(s.get(k)+":"+OmitMap.get(s.get(k)));
}
OmitMap.put(s.get(k), 0);
}
}
}
}
Iterator<String> key = OmitMap.keySet().iterator();
while(key.hasNext()){
String mapKey = key.next();
System.out.println("key:"+mapKey+",value:"+ OmitMap.get(mapKey));
}
}
public static void autoAddOmit(){
Set<String> keySet = OmitMap.keySet();
Iterator<String> key = keySet.iterator();
while(key.hasNext()){
String mapKey = key.next();
OmitMap.put(mapKey, OmitMap.get(mapKey)+1);
}
}
public static void init(){
for(int i=1;i<=10;i++){
for(int j=i+1;j<=11;j++){
String name=""+(i<10?"0"+i:i)+(j<10?"0"+j:j);
OmitMap.put(name, 0);
}
}
// System.out.println("OmitMap:"+OmitMap.size());
}
private static ArrayList<ArrayList<String>> changeToSet(ArrayList<String> resultList) {
// for(String s:resultList){
// System.out.print(s+",");
// }
ArrayList<ArrayList<String>> result = new ArrayList<ArrayList<String>>();
ArrayList<String> set = null;
for(int i=0;i<resultList.size()-1;i++){
for(int j=i+1;j<resultList.size();j++){
int ivalue = Integer.parseInt(resultList.get(i));
int jvalue = Integer.parseInt(resultList.get(j));
String ball = ""+(ivalue<10?"0"+ivalue:ivalue)+(jvalue<10?"0"+jvalue:jvalue);
set = new ArrayList<String>();
set.add(ball);
result.add(set);
}
}
// for(ArrayList<String> s:result){
// for(int k=0;k<s.size();k++)
// System.out.print(s.get(k)+",");
// }
return result;
}
public static ArrayList<ParserResultDT> getParserResult(){
ArrayList<ParserResultDT> parseArrayList = new ArrayList<ParserResultDT>();
ParserResultDT resultDT = new ParserResultDT();
//first
ArrayList<String> list = new ArrayList<String>();
list.add("10");
list.add("03");
list.add("01");
list.add("11");
list.add("08");
Collections.sort(list);
resultDT.setSeq("2014102301");
resultDT.setResultSet(list);
parseArrayList.add(resultDT);
//second
list = new ArrayList<String>();
list.add("11");
list.add("06");
list.add("02");
list.add("07");
list.add("09");
Collections.sort(list);
resultDT = new ParserResultDT();
resultDT.setSeq("2014102302");
resultDT.setResultSet(list);
parseArrayList.add(resultDT);
return parseArrayList;
}
public static ArrayList<String> getAllType(){
ArrayList<String> set = new ArrayList<String>();
for(int i=1;i<=10;i++){
for(int j=i+1;j<=11;j++){
String name=""+(i<10?"0"+i:i)+(j<10?"0"+j:j);
set.add(name);
}
}
System.out.println("set size:"+set.size());
// for(String s:set){
// System.out.println(s);
// }
return set;
}
public static void htmlParser(){
ParserResultDT resultDT = null;
ArrayList<String> list = null;
String url = "http://chart.11x5w.com/dlc/zoushi/inc/dlc_fb.aspx";
SimpleDateFormat df = new SimpleDateFormat("yyMMdd");
String date = df.format(new Date());
try{
Parser parser = new Parser(url);
NodeClassFilter filter = new NodeClassFilter(TextNode.class);
NodeList nodes = parser.extractAllNodesThatMatch(filter);
if(nodes!=null) {
for (int i = 0; i < nodes.size(); i++) {
Node textnode = (Node) nodes.elementAt(i);
String text = textnode.getText();
if(text.startsWith(date)){
String node1 = ((Node) nodes.elementAt(i+1)).getText();
String node2 = ((Node) nodes.elementAt(i+2)).getText();
String node3 = ((Node) nodes.elementAt(i+3)).getText();
String node4 = ((Node) nodes.elementAt(i+4)).getText();
String node5 = ((Node) nodes.elementAt(i+5)).getText();
resultDT = new ParserResultDT();
list = new ArrayList<String>();
list.add(node1);
list.add(node2);
list.add(node3);
list.add(node4);
list.add(node5);
resultDT.setSeq(text);
resultDT.setResultSet(list);
parseArrayList.add(resultDT);
i=i+5;
}
}
}
System.out.println("parseArrayList:"+parseArrayList.size());
} catch( Exception e ) {
e.printStackTrace();
}
}
}
JAVA htmlParser解析
最新推荐文章于 2021-03-06 03:18:49 发布