我现在首先要从网上下载一个文件,然后要对他上面的IMG进行处理。
现在的问题是怎样提取出html文件中的img?
能不能对一个html文件进行分析?
有谁做个这方面的工作,谢谢了!
|
import java.io.*;
import javax.swing.text.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
public class ParseHtml{
public static void main(String args[]){
System.out.println("place test.htm file at the same directory as this application");
System.out.println();
System.out.println();
try{
FileReader r = new FileReader("test.htm");
ParserDelegator parser = new ParserDelegator();
HTMLEditorKit.ParserCallback callback = new Callback();
parser.parse(r, callback, true);
}
catch(Exception e){
e.printStackTrace();
}
}
}
class Callback extends HTMLEditorKit.ParserCallback
{
public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos)
{
if(t.equals(HTML.Tag.IMG))
{
String imgsrc=(String)a.getAttribute(HTML.Attribute.SRC);
System.out.println("Image source:"+imgsrc);
}
}
}