java爬取网站正文

最新推荐文章于 2024-06-28 14:26:11 发布

长醉不醒

最新推荐文章于 2024-06-28 14:26:11 发布

阅读量496

点赞数

文章标签： java

本文链接：https://blog.csdn.net/weixin_35702149/article/details/64496540

版权

最近的一些进度，刚刚接触csdn，这次只是试水，以后会陆续发一点微博，反正也没人关注，只是为了自省而已。之后能看看自己哪几天在偷懒。233333 import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.URL;import java.util.regex.Matcher;import java.util.regex.Pattern;public class CatchHtml { public static void main(String[] args){ URL url; int responsecode; HttpURLConnection urlConnection; BufferedReader reader; String line; StringBuilder html = new StringBuilder(); String st; String st2; try{ //生成一个URL对象，要获取源代码的网页地址为：http://www.sina.com.cn url=new URL("http://baa.bitauto.com/changancs75/thread-9819102.html"); //打开URL urlConnection = (HttpURLConnection)url.openConnection(); //获取服务器响应代码 responsecode=urlConnection.getResponseCode(); if(responsecode==200){ //得到输入流，即获得了网页的内容 reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"utf-8")); while((line=reader.readLine())!=null){ html.append(line); } } else{ System.out.println("获取不到网页的源码，服务器响应代码为："+responsecode); } } catch(Exception e){ System.out.println("获取不到网页的源码,出现异常："+e); }// System.out.println(html); //爬取title// Pattern p = Pattern.compile(""); // Matcher m = p.matcher(html); // while (m.find()) {//找到匹配的字符串// System.out.println("title: " + m.group(1));// } 爬取content Pattern s = Pattern.compile("

(.*)

"); Matcher n = s.matcher(html); while (n.find()) {//找到匹配的字符串 System.out.println("title: " + HTMLSpirit.delHTMLTag(n.group(1))); } // st2 = HTMLSpirit.delHTMLTag(html.toString()); // // System.out.println(st2); }}