java htmlparser 解析_JAVA htmlParser解析

package com.ljt.html.parse;

import java.text.ParseException;

import java.text.SimpleDateFormat;

import java.util.ArrayList;

import java.util.Collections;

import java.util.Date;

import java.util.HashMap;

import java.util.Iterator;

import java.util.Set;

import org.htmlparser.Node;

import org.htmlparser.Parser;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.nodes.TextNode;

import org.htmlparser.util.NodeList;

public class ParseTest {

public static HashMap OmitMap = new HashMap();

public static ArrayList parseArrayList = new ArrayList();

public static void main(String[] args) throws ParseException {

begin();

}

public static void begin(){

init();

htmlParser();

ArrayList testResult = parseArrayList;

ArrayList allType = getAllType();

for(int i=0;i

autoAddOmit();

ParserResultDT testDT = testResult.get(i);

ArrayList> tempSet = changeToSet(testDT.getResultSet());

for(ArrayList s:tempSet){

for(int k=0;k

if(allType.contains(s.get(k))){

//System.out.println("contains:"+s.get(k));

if(OmitMap.get(s.get(k))>20){

System.out.println(s.get(k)+":"+OmitMap.get(s.get(k)));

}

OmitMap.put(s.get(k), 0);

}

}

}

}

Iterator key = OmitMap.keySet().iterator();

while(key.hasNext()){

String mapKey = key.next();

System.out.println("key:"+mapKey+",value:"+ OmitMap.get(mapKey));

}

}

public static void autoAddOmit(){

Set keySet = OmitMap.keySet();

Iterator key = keySet.iterator();

while(key.hasNext()){

String mapKey = key.next();

OmitMap.put(mapKey, OmitMap.get(mapKey)+1);

}

}

public static void init(){

for(int i=1;i<=10;i++){

for(int j=i+1;j<=11;j++){

String name=""+(i<10?"0"+i:i)+(j<10?"0"+j:j);

OmitMap.put(name, 0);

}

}

//System.out.println("OmitMap:"+OmitMap.size());

}

private static ArrayList> changeToSet(ArrayList resultList) {

//for(String s:resultList){

//System.out.print(s+",");

//}

ArrayList> result = new ArrayList>();

ArrayList set = null;

for(int i=0;i

for(int j=i+1;j

int ivalue = Integer.parseInt(resultList.get(i));

int jvalue = Integer.parseInt(resultList.get(j));

String ball = ""+(ivalue<10?"0"+ivalue:ivalue)+(jvalue<10?"0"+jvalue:jvalue);

set = new ArrayList();

set.add(ball);

result.add(set);

}

}

// for(ArrayList s:result){

// for(int k=0;k

//System.out.print(s.get(k)+",");

//}

return result;

}

public static ArrayList getParserResult(){

ArrayList parseArrayList = new ArrayList();

ParserResultDT resultDT = new ParserResultDT();

//first

ArrayList list = new ArrayList();

list.add("10");

list.add("03");

list.add("01");

list.add("11");

list.add("08");

Collections.sort(list);

resultDT.setSeq("2014102301");

resultDT.setResultSet(list);

parseArrayList.add(resultDT);

//second

list = new ArrayList();

list.add("11");

list.add("06");

list.add("02");

list.add("07");

list.add("09");

Collections.sort(list);

resultDT = new ParserResultDT();

resultDT.setSeq("2014102302");

resultDT.setResultSet(list);

parseArrayList.add(resultDT);

return parseArrayList;

}

public static ArrayList getAllType(){

ArrayList set = new ArrayList();

for(int i=1;i<=10;i++){

for(int j=i+1;j<=11;j++){

String name=""+(i<10?"0"+i:i)+(j<10?"0"+j:j);

set.add(name);

}

}

System.out.println("set size:"+set.size());

//for(String s:set){

//System.out.println(s);

//}

return set;

}

public static void htmlParser(){

ParserResultDT resultDT = null;

ArrayList list = null;

String url = "http://chart.11x5w.com/dlc/zoushi/inc/dlc_fb.aspx";

SimpleDateFormat df = new SimpleDateFormat("yyMMdd");

String date = df.format(new Date());

try{

Parser parser = new Parser(url);

NodeClassFilter filter = new NodeClassFilter(TextNode.class);

NodeList nodes = parser.extractAllNodesThatMatch(filter);

if(nodes!=null) {

for (int i = 0; i < nodes.size(); i++) {

Node textnode = (Node) nodes.elementAt(i);

String text = textnode.getText();

if(text.startsWith(date)){

String node1 = ((Node) nodes.elementAt(i+1)).getText();

String node2 = ((Node) nodes.elementAt(i+2)).getText();

String node3 = ((Node) nodes.elementAt(i+3)).getText();

String node4 = ((Node) nodes.elementAt(i+4)).getText();

String node5 = ((Node) nodes.elementAt(i+5)).getText();

resultDT = new ParserResultDT();

list = new ArrayList();

list.add(node1);

list.add(node2);

list.add(node3);

list.add(node4);

list.add(node5);

resultDT.setSeq(text);

resultDT.setResultSet(list);

parseArrayList.add(resultDT);

i=i+5;

}

}

}

System.out.println("parseArrayList:"+parseArrayList.size());

} catch( Exception e ) {

e.printStackTrace();

}

}

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
java精神(基于函数式组合子逻辑的javaparser框架) 一。 释名。 为什么叫精神? 如果你熟悉c++,那么你可能知道一个叫做”spirit”的parser库。它利用c++的模板元编程能力,使用c++语言本身提供了一个递归下降文法解析的框架。 我这里介绍的jparsec库,就是一个java里面的递归下降文法解析框架。 不过,它并非是spirit的java版本。 Jparsec的蓝本来自Haskell语言的parsec库。Parsec是一个基于monad的parser组合子库。 这个库的目的是要在java中提供一个类似parsec, spirit的库,这种组合子库并非c++的专利,java/c#也可以做到。这个库还将在java5.0上被改写,类型安全上它将也不再逊色于c++。 那么,为什么叫“函数式”呢?java是面向对象的嘛。 如果你使用过haskell, lisp等语言,这个函数式不用解释你也知道是怎么回事了。 如果你是一个老牌的c++/java程序员,那么这里还要稍微解释一下。当然如果您对这些虚头八脑的名词不感兴趣,那么,你尽可以跳过这一章,不知道什么是“函数式”,并不会影响你对这个库的理解的。 C++这几年随着gp的普及,“函数式”这个老孔乙己逐渐又被人从角落里面拽了出来。一个c++程序员所熟悉的“函数式”很可能是stl的for_each, transform,count_if这些函数。 怎么说呢,就象我不能否定str.length()这个调用属于OO一样,我也无法说for_each, transform不是函数式。 但是,“函数式”的精髓不在于此。 一般归纳起来,就像我们说OO是什么多态,封装,继承一样,“函数式”的特征被总结为: 1。无副作用。 2。高阶函数。 3。延迟计算 而最最有意义的(至少我认为如此),是基于高阶函数的函数组合能力。一些人把这叫做glue。 简短地说,什么让函数式编程如此强大?是用简单的函数组合出复杂函数的能力。 我可以想象,说到这里,你还是一头雾水。“什么是组合?1+1不是也把两个1组合成2了吗?new A(new B(), new C())不也是从B和C组合成A了?”

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值