JAVA爬虫(一):豆瓣电影排行榜爬取

本文详述了使用JAVA爬虫获取豆瓣电影排行榜的过程,包括爬取榜单网页源代码、解析HTML获取电影信息,以及如何进一步爬取单个电影详情。通过Jsoup库,实现了模拟浏览器访问并提取关键数据。
摘要由CSDN通过智能技术生成

前言

最近和大创队友一起给大创做的APP增添了新功能,新功能中需要用到爬取豆瓣、QQ音乐、哔哩哔哩等网站。所以写下博客记录这一过程,也算是和大家分享一些经验。

流程图

在这里插入图片描述

步骤

一、爬取豆瓣电影榜单网页源代码

为实现这一功能,第一步是需要获取豆瓣热门电影榜单的网页源代码,我们采用Jsoup库中的connect方法建立连接,再用userAgent方法模拟浏览器进行网页访问,再用post方法获取数据。得到的是HTML格式的网页源代码,如下图:
网页源码返回格式

二、网页源码解析

HTML格式解析:
我们发现电影信息存储在上图所示的地方,那我们只需要对这一层进行解析获取数据即可。用Jsoup中的select方法定位至这一区域,再用attr方法逐层选择需要的信息,比如我们获取了”href”下的电影链接、”title”下的电影名字,”src”下的电影图片等等。
总体代码如下

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;



public class getDB_film {
   

	public static void main(String[] args) throws IOException {
   
		
		String url = "http://movie.douban.com/chart";
		
		//获取html
		Document doc = Jsoup.connect(url)
					        .maxBodySize(Integer.MAX_VALUE)
					        .data("query", "Java")
					        .cookie("auth", "token")
							.userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134")
							.timeout
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值