Java 抓取网页数据

最新推荐文章于 2024-04-30 14:28:06 发布

chenweishaoxing

最新推荐文章于 2024-04-30 14:28:06 发布

阅读量249

点赞数

分类专栏： java 搜索引擎 java 爬虫爬虫文章标签： java

本文链接：https://blog.csdn.net/chenweishaoxing/article/details/84150064

版权

java 同时被 3 个专栏收录

567 篇文章 0 订阅

订阅专栏

搜索引擎

6 篇文章 0 订阅

订阅专栏

java 爬虫

6 篇文章 0 订阅

订阅专栏

Java 抓取网页数据

Java 工作

题注：很多时候用到抓取网页数据的功能，以前工作中曾经用到过，今天总结了一下

目的：抓取网页数据多是读一些地址连续的URL，获得页面信息，进而对页面DOM进行分析，处理得到粗糙的数据，然后进行加工，得到我们想要的内容。

首先选择一个地址，比如http://www.51leba.com

代码部分如下：

     Java代码   
     
   
try{  
            URL url = new URL("http://www.51leba.com");  
            URLConnection conn = url.openConnection();  
               
            BufferedReader is = new BufferedReader(new InputStreamReader(conn.getInputStream()));  
            StringBuffer buffer = new StringBuffer();  
            String str;  
            while((str = is.readLine()) != null){  
                buffer.append(str);  
                buffer.append("\n");  
                  
            }  
            str = buffer.toString().replaceAll("<script(.|\n)+?</script>", "").replaceAll("<(.|\n)+?>", "").replaceAll("&nbsp;", " ");  
            String[] s = str.split("\n");  
            buffer = new StringBuffer();  
            for(int i=0;i<s.length;i++){  
                if(s[i].trim().equals("") ){  
                    continue;  
                }else{  
                    buffer.append(s[i]);  
                    buffer.append("\n");  
                }  
            }  
            System.out.println(buffer.toString());  
              
            is.close();  
              
        }catch (Exception e) {  
            e.printStackTrace();  
        }  

得到的结果是：

     Java代码   
     
   
欢迎光临51乐吧！  
    欢迎光临51乐吧！  
        回家倒计时  
     拼音转汉字  

chenweishaoxing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java 抓取网页数据

Java 抓取网页数据Java工作题注：很多时候用到抓取网页数据的功能，以前工作中曾经用到过，今天总结了一下目的：抓取网页数据多是读一些地址连续的URL，获得页面信息，进而对页面DOM进行分析，处理得到粗糙的数据，然后进行加工，得到我们想要的内容。首先选择一个地址，比如http://www.51leba.com 代码部分如下： Java...
复制链接

扫一扫