htmlparser例子（转）

最新推荐文章于 2024-08-20 17:24:57 发布

failure_lee

最新推荐文章于 2024-08-20 17:24:57 发布

阅读量662

点赞数 1

java 同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

httpclient

3 篇文章 0 订阅

订阅专栏

htmlparser

1 篇文章 0 订阅

订阅专栏

package com.core;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.util.Date;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.*;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.util.NodeList;
import org.htmlparser.visitors.TextExtractingVisitor;
public class Test {
public static void main(String[] args){
String title;//标题
String body;//正文
try{
Parser parser=new Parser("http://www.chinanews.com/gj/2011/09-22/3347124.shtml");//要解析的网页
parser.setEncoding("gb2312");//设置编码
NodeFilter filter_title=new TagNameFilter("title");//title节点过滤
NodeFilter filter_text = new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("class","left_zw"));//正文节点过滤
NodeList nodelist1=parser.extractAllNodesThatMatch(filter_title);//过滤得符合过滤要求的节点的LIST
Node node_title=nodelist1.elementAt(0);//取节点
StringBuffer buftitle=new StringBuffer();
if(node_title==null){//判断是否为空
buftitle.append("");
}
else{
buftitle.append(node_title.toPlainTextString());//把节点里的文本节点转化为String 加到buftitle上
}
title=buftitle.toString();//转化为String
System.out.println(title);//输出
parser.reset();//重置
NodeList nodelist2=parser.parse(filter_text);//过滤出符合filter_text的节点LIST
Node[] nodes = nodelist2.toNodeArray();//转化为数组
StringBuffer buftext=new StringBuffer();
String line=null;
for(int i=0;i<nodes.length;i++){//循环加到buftext上
line = nodes[i].toPlainTextString();
if(line!=null){
buftext.append(line);
}
}
body=buftext.toString();
System.out.println(body);//输出
}catch(Exception e){
e.printStackTrace();
}
}
}

failure_lee

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
htmlparser例子（转）

package com.core; import java.io.BufferedWriter; import java.io.FileWriter; import java.util.Date; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser;
复制链接

扫一扫

专栏目录