JAVA爬虫（一）：豆瓣电影排行榜爬取

最新推荐文章于 2024-07-30 09:30:21 发布

帅不过三秒的大鲨鱼

最新推荐文章于 2024-07-30 09:30:21 发布

阅读量5.7k

点赞数 9

分类专栏： java 爬虫文章标签： java爬虫

本文链接：https://blog.csdn.net/weixin_42395901/article/details/88759946

版权

本文详述了使用JAVA爬虫获取豆瓣电影排行榜的过程，包括爬取榜单网页源代码、解析HTML获取电影信息，以及如何进一步爬取单个电影详情。通过Jsoup库，实现了模拟浏览器访问并提取关键数据。

摘要由CSDN通过智能技术生成

前言

最近和大创队友一起给大创做的APP增添了新功能，新功能中需要用到爬取豆瓣、QQ音乐、哔哩哔哩等网站。所以写下博客记录这一过程，也算是和大家分享一些经验。

流程图

在这里插入图片描述

步骤

一、爬取豆瓣电影榜单网页源代码

为实现这一功能，第一步是需要获取豆瓣热门电影榜单的网页源代码，我们采用Jsoup库中的connect方法建立连接，再用userAgent方法模拟浏览器进行网页访问，再用post方法获取数据。得到的是HTML格式的网页源代码，如下图：
网页源码返回格式

二、网页源码解析

HTML格式解析：
我们发现电影信息存储在上图所示的地方，那我们只需要对这一层进行解析获取数据即可。用Jsoup中的select方法定位至这一区域，再用attr方法逐层选择需要的信息，比如我们获取了”href”下的电影链接、”title”下的电影名字，”src”下的电影图片等等。
总体代码如下

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;



public class getDB_film {
   

	public static void main(String[] args) throws IOException {
   
		
		String url = "http://movie.douban.com/chart";
		
		//获取html
		Document doc = Jsoup.connect(url)
					        .maxBodySize(Integer.MAX_VALUE)
					        .data("query", "Java")
					        .cookie("auth", "token")
							.userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134")
							.timeout