Java 获取豆瓣电影TOP250

对于爬虫,Java并不是最擅长的,但是也可以实现,此次主要用到的包有hutooljsoup

  • hutool是一个Java工具包,它简化了Java的各种API操作,包括文件操作、类型转换、HTTP、日期处理、JSON处理、加密解密等。它的目标是使Java的常见操作更简单,提供一个简洁易用的API,让开发者更高效地编写代码。
  • jsoup是一个用于处理HTML的Java库,它提供了非常方便的API来解析HTML文档,并进行文档操作。它可以用来提取HTML中的数据,进行HTML到XML的转换,清理不安全的HTML标签等。

代码实现

import cn.hutool.core.io.FileUtil;
import cn.hutool.http.HttpResponse;
import cn.hutool.http.HttpUtil;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;

/**
 * @author BXB
 */
public class DoubanFilm250 {
    public static void main(String[] args) {
        for (int i = 0; i < 226; i += 25) {
            String url = String.format("https://movie.douban.com/top250?start=%d&filter=", i);
            String request = request(url);
            select(request);
        }
    }


    public static String request(String url) {
        // 发送 GET 请求
        HttpResponse response = HttpUtil.createGet(url)
                .timeout(5000)  // 设置超时时间
                .header("User-Agent", "Mozilla/5.0")  // 设置请求头
                .execute();
        return response.body();
    }

    public static void select(String body) {
        Document parse = Jsoup.parse(body);
        Element gridView = parse.getElementsByClass("grid_view").get(0);
        Elements children = gridView.children();

        try (
                BufferedWriter bufferedWriter = new BufferedWriter(new FileWriter("C:/path/to/save/movieTop250.md", true));  // 修改为自己的地址
                ) {
            bufferedWriter.write("| 电影名称 | 详情页地址  | 评分+金句    |\n");
            bufferedWriter.write("|:--------:|:--------:|:--------:|");
            bufferedWriter.newLine();
            for (Element child : children) {
                // 获取电影名称
                String movieName = child.select("div.info div.hd span.title").text();
                System.out.println("电影名称: " + movieName + "写入成功");
                bufferedWriter.write("| " + movieName + " | ");

                // 获取海报链接
                String posterUrl = child.select("div.pic img").attr("src");
                saveImage(posterUrl, movieName);

                // 获取详情页链接
                String movieUrl = child.select("div.info a").attr("href");
                bufferedWriter.write(  movieUrl + " | ");
//
                // 评分 金句
                String text = child.select("div.bd span").text();
                bufferedWriter.write(text + " | ");
                bufferedWriter.newLine();
            }
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

    public static void saveImage (String imageUrl, String movieName) {
        String savePath = "C:/path/to/save/" + movieName.split("[/]")[0] + ".jpg"; // 修改为你要保存的路径和文件名

        byte[] imageBytes = HttpUtil.downloadBytes(imageUrl); // 下载图片字节数组
        FileUtil.writeBytes(imageBytes, savePath); // 将字节数组写入到本地文件
    }
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
豆瓣电影Top250是豆瓣网站根据用户评分和评价数量统计出的一份电影排行榜单,其中包含了豆瓣用户认可度较高的电影作品。以下是对豆瓣电影Top250的介绍: 1. 《肖申克的救赎》:这部由弗兰克·德拉邦特执导的电影是豆瓣电影Top250中排名第一的作品,它讲述了一个关于友谊、希望和自由的故事。 2. 《霸王别姬》:由陈凯歌执导的这部经典作品是中国电影的代表之一,它以京剧为背景,讲述了两位戏曲演员之间的纠葛与情感。 3. 《这个杀手不太冷》:这部由吕克·贝松执导的法国电影以其紧凑的剧情和精彩的动作场面而闻名,主要讲述了一位职业杀手与一个小女孩之间的故事。 4. 《阿甘正传》:这部由罗伯特·泽米吉斯执导的电影以其温暖感人的故事和托尼·汤普森的精彩表演而广受好评。 5. 《美丽人生》:这部由罗伯托·贝尼尼执导的意大利电影讲述了一个关于爱与希望的故事,它以其独特的方式展现了二战时期的人性与善良。 6. 《千与千寻》:这部由宫崎骏执导的日本动画电影是豆瓣电影Top250中唯一一部动画片,它讲述了一个关于成长和勇气的奇幻故事。 7. 《泰坦尼克号》:这部由詹姆斯·卡梅隆执导的电影以其浪漫的爱情故事和逼真的特效而成为经典之作。 8. 《辛德勒的名单》:这部由史蒂文·斯皮尔伯格执导的电影根据真实事件改编,讲述了一位德国商人在二战期间拯救犹太人的故事。 9. 《盗梦空间》:这部由克里斯托弗·诺兰执导的科幻电影以其复杂的剧情和令人惊叹的视觉效果而备受赞誉。 10. 《忠犬八公的故事》:这部由拉斯·霍尔斯道姆执导的电影根据真实事件改编,讲述了一只忠诚的狗与主人之间的感人故事。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值