java 标题 过滤_用HTMLParser过滤掉html中所有标签,留下标题正文等内容,java

publicclasslable_delimplementsRunnable{privatestaticStringfileName;privatestaticlable_deltst;privateFilefile=null;publicStringk;publicstaticintm=0;publiclable_del(Filefil...

public class lable_del implements Runnable {

private static String fileName;

private static lable_del tst;

private File file = null;

public String k;

public static int m = 0;

public lable_del(File file) {

this.file = file;

}

public void run() {

//System.out.print(k);

try {

File ff = new File("E:\\", "结果\\" + m + ".txt");

System.out.print(m + "{}");

if (!ff.exists()) {

ff.createNewFile();

OutputStreamWriter writer = new OutputStreamWriter(new FileOutputStream(ff));

BufferedWriter bw = new BufferedWriter(writer);

bw.write(getText());

bw.close();

writer.close();

}

} catch (Exception ex) {

ex.printStackTrace();

}

}

public String getText() throws ParserException {

StringBean sb = new StringBean();

sb.setReplaceNonBreakingSpaces(true);

sb.setCollapse(true);

sb.setURL(k);

return sb.getStrings();

}

public static void getFile(File f)

{

File[] name = f.listFiles();

for (int i = 0; i < name.length; i++)

{

if (name[i].isDirectory()==true)

{

String s=f.getPath()+"\\"+name[i];

System.out.println("123"+s);

System.out.println(name[i]);

//File f1=new File();

getFile(name[i]);

}

else

{

System.out.println(name[i].getAbsolutePath());

if(name[i]!=null) {

lable_del tst = new lable_del(name[i]);

tst.k = name[i].getAbsolutePath();

System.out.println(tst.k);

System.out.println(name.length);

Thread t = new Thread(tst);

t.start();

try {

t.join();

tst.m = tst.m + 1;

} catch (InterruptedException ex) {

Logger.getLogger(lable_del.class.getName()).log(Level.SEVERE, null, ex);

}

}

}

}

}

public static void main(String[] args)

{

File file = new File("E:\\爬虫网页");

getFile(file);

}

}

这个是我们的代码,但是处理结果只能去掉标签,还留下一大堆的东西,怎样做修改能说只提取HTML里的标题和正文呢。我们针对的新浪里的新闻,我知道理论上来说是提取

与,与之间的内容,大神啊具体我不会写代码!!求帮助!

展开

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值