java爬取网站正文

最近的一些进度,刚刚接触csdn,这次只是试水,以后会陆续发一点微博,反正也没人关注,只是为了自省而已。之后能看看自己哪几天在偷懒。233333 import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.URL;import java.util.regex.Matcher;import java.util.regex.Pattern;public class CatchHtml { public static void main(String[] args){ URL url; int responsecode; HttpURLConnection urlConnection; BufferedReader reader; String line; StringBuilder html = new StringBuilder(); String st; String st2; try{ //生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn url=new URL("http://baa.bitauto.com/changancs75/thread-9819102.html"); //打开URL urlConnection = (HttpURLConnection)url.openConnection(); //获取服务器响应代码 responsecode=urlConnection.getResponseCode(); if(responsecode==200){ //得到输入流,即获得了网页的内容 reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"utf-8")); while((line=reader.readLine())!=null){ html.append(line); } } else{ System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode); } } catch(Exception e){ System.out.println("获取不到网页的源码,出现异常:"+e); }// System.out.println(html); //爬取title// Pattern p = Pattern.compile(""); // Matcher m = p.matcher(html); // while (m.find()) {//找到匹配的字符串// System.out.println("title: " + m.group(1));// } 爬取content Pattern s = Pattern.compile("
(.*)


"); Matcher n = s.matcher(html); while (n.find()) {//找到匹配的字符串 System.out.println("title: " + HTMLSpirit.delHTMLTag(n.group(1))); } // st2 = HTMLSpirit.delHTMLTag(html.toString()); // // System.out.println(st2); }}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值