简单的JAVA爬虫

最新推荐文章于 2024-04-05 16:43:06 发布

浮沉_Man

最新推荐文章于 2024-04-05 16:43:06 发布

阅读量724

点赞数 7

分类专栏： JAVA应用篇文章标签： java 正则表达式爬虫

本文链接：https://blog.csdn.net/qq_30832659/article/details/52486064

版权

JAVA应用篇专栏收录该内容

5 篇文章 0 订阅

订阅专栏

楼主只是个大三狗，去年在技术部工作的时候，师兄要求我写一个抓取教务部信息的小Demo，举一反三，写了三个关于JAVA爬虫的代码。
首先做好准备工作：
了解正则表达式中基本的Select的用法:
此处引用楼主查到的资料
http://www.tuicool.com/articles/ZnyMvu

第一个爬虫：无验证码的简单爬虫
楼主是中南财经政法大学的，就拿本校教务处作为例子，我们的目的是获取教务通知中的标题和超链接
网址：http://jwc.zuel.edu.cn/
示例图片
首先查看网页源码，楼主用的是谷歌，F12就可以看到源码。

接下来重点！！！！PO出JAVA源码

 String url="http://jwc.zuel.edu.cn/";//你要爬的网页地址
 //核心代码，链接到该网页
 Connection connection=Jsoup.connect(url);
 Document Content=connection.get();
 //获取指定位置的信息，该Demo中是新闻标题和时间
 Elements links=Content.select("[class=Article_Title]");
  Elements  Date=Content.select("[class=Article_PublishDate]");
 //首先显示了8个新闻，用一个for循环
 for(int i=0;i<8;i++)
   {    
   //得到所需字符串
    String webContent=links.select("a").get(i).text(); 
    String webDate=Date.get(i).text();
    //得到超链接的代码比较特殊  这里进行标注
    String herf=links.select("a").get(i).attr("abs:href");
        System.out.println(herf);
        str[i*2]=webContent;
        str[i*2+1]=webDate;
        strings[i]=herf;
    } 
     for(int m=0;m<16;m++)
    {
        System.out.println(str[m]);
       System.out.println(str[++m]);
     }
 //