Java爬取豆瓣Top250简单实现

首先引入依赖:

  <dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.12.1</version>
  </dependency>
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;


public class Crawling {

    public static void main(String[] args) throws IOException {
        for (int i = 0; i < 10; i++) {
            int page = i * 25;
            Document document = Jsoup.connect("https://movie.douban.com/top250?start=" + page).userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:60.0) Gecko/20100101 Firefox/60.0").timeout(6000).get();
            Elements items = document.getElementsByClass("item");
            for (Element item : items) {
                String num = item.getElementsByTag("em").get(0).text();
                String title = item.getElementsByClass("hd").get(0).getElementsByTag("span").get(0).text();
                String bd = item.getElementsByClass("bd").get(0).getElementsByTag("p").get(0).html();
                bd = bd.replaceAll("&nbsp;"," ");
//导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br> 1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情
//导演: 吕克·贝松 Luc Besson&nbsp;&nbsp;&nbsp;主演: 让·雷诺 Jean Reno / 娜塔莉·波特曼 ...<br> 1994&nbsp;/&nbsp;法国 美国&nbsp;/&nbsp;剧情 动作 犯罪
                String ratingNum = item.getElementsByClass("rating_num").get(0).text();
                String quote = "";
                if (item.getElementsByClass("quote").size() > 0) {
                    quote = item.getElementsByClass("quote").get(0).text();
                }
                System.out.println("电影名次: " + num);
                System.out.println("电影标题: " + title);
                System.out.println(bd);
                System.out.println("电影评分: " + ratingNum);
                System.out.println("电影简评: " + quote);
                System.out.println("============================================");
            }
        }


    }
  

}


效果:
在这里插入图片描述

参考链接:谁说Java不能搞爬虫,武哥带你一起爬取豆瓣电影Top250

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值