Java校招面试指南,Java爬取豆瓣电影数据

本文介绍了如何使用SpringBoot框架构建一个爬虫程序,抓取豆瓣电影API的数据,包括电影信息、图片等,并将数据保存到MySQL数据库和本地文件。涉及的技术包括JPA进行数据持久化和HTTP请求处理。
摘要由CSDN通过智能技术生成

打开浏览器f12,地址栏中输入该地址访问,可以看到请求响应的页面,对应可以找到电影数据的请求地址,数据请求地址

https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0

可以看到数据请求地址响应过来的是一个JSON格式的数据,之后我们看到请求地址上的参数type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0。其中type是电影tag是标签,sort是按照热门进行排序的,page_limit是每页20条数据,page_start是从第几条数据开始查询(下标从0开始)。但是这不是我们想要的,我们需要去找豆瓣电影数据的总入口地址是下面这个

https://movie.douban.com/j/search_subjects

创建SpringBoot项目爬取数据

把爬取到的数据保存到数据库中,电影图片保存在本地磁盘中,这里持久层用的是JPA,所以需要引入对应的依赖。pom.xml中依赖代码如下。

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns=“http://maven.apache.org/POM/4.0.0” xmlns:xsi=“http://www.w3.org/2001/XMLSchema-instance”

xsi:schemaLocation=“http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd”>

4.0.0

org.springframework.boot

spring-boot-starter-parent

2.2.1.RELEASE

com.mcy

crawler-douban

0.0.1-SNAPSHOT

crawler-douban

Demo project for Spring Boot

<java.version>1.8</java.version>

org.springframework.boot

spring-boot-starter-data-jpa

org.springframework.boot

spring-boot-starter-web

mysql

mysql-connector-java

runtime

org.springframework.boot

spring-boot-starter-test

test

org.junit.vintage

junit-vintage-engine

org.apache.httpcomponents

httpclient

4.5.2

org.jsoup

jsoup

1.11.3

com.alibaba

fastjson

1.2.47

org.springframework.boot

spring-boot-maven-plugin

项目目录结构如下。

首先我们在entity包中建立实体对象,字段为豆瓣电影的基本信息(有些信息是详情页面的信息)。

Movie实体类。

import javax.persistence.*;

@Entity

public class Movie {

private Integer id;

private double rate; //评分

private String title; //电影名称

private String director; //导演

private String protagonist; //主演

private String dateTime; //电影时长

@Id

@GeneratedValue(strategy = GenerationType.IDENTITY)

public Integer getId() {

return id;

}

public void setId(Integer id) {

this.id = id;

}

public double getRate() {

return rate;

}

public void setRate(double rate) {

this.rate = rate;

}

public String getTitle() {

return title;

}

public void setTitle(String title) {

this.title = title;

}

public String getDirector() {

return director;

}

public void setDirector(String director) {

this.director = director;

}

@Column(length=2000)

public String getProtagonist() {

return protagonist;

}

public void setProtagonist(String protagonist) {

this.protagonist = protagonist;

}

public String getDateTime() {

return dateTime;

}

public void setDateTime(String dateTime) {

this.dateTime = dateTime;

}

}

在src/main/resources下找到application.properties文件,在该配置文件中配置数据库链接信息,需要在数据库中新建一个名为douban的数据库。

spring.datasource.url=jdbc:mysql://localhost:3306/douban?serverTimezone=GMT%2B8

spring.datasource.username=root

spring.datasource.password=root

spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver

spring.jpa.database-platform=org.hibernate.dialect.MySQL5InnoDBDialect

spring.jpa.show-sql=true

spring.jpa.hibernate.ddl-auto=update

spring.jpa.hibernate.use-new-id-generator-mappings=false

创建MovieRepository数据访问层接口

import com.mcy.crawlerdouban.entity.Movie;

import org.springframework.data.jpa.repository.JpaRepository;

public interface MovieRepository extends JpaRepository<Movie, Integer> {

}

创建MovieService类,里边有一个保存数据的方法。

import com.mcy.crawlerdouban.entity.Movie;

import com.mcy.crawlerdouban.repository.MovieRepository;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.stereotype.Service;

@Service

public class MovieService {

@Autowired

private MovieRepository movieRepository;

public void save(Movie movie) {

movieRepository.save(movie);

}

}

创建一个HttpUtils获取网页数据和保存图片的工具类。

创建连接池和配置连接池信息。

//创建连接池管理器

private static PoolingHttpClientConnectionManager cm;

public HttpUtils(){

cm = new PoolingHttpClientConnectionManager();

//设置最大连接数

cm.setMaxTotal(100);

//设置每个主机的最大连接数

cm.setDefaultMaxPerRoute(10);

}

//配置请求信息

private static RequestConfig getConfig() {

RequestConfig config = RequestConfig.custom()

.setConnectTimeout(10000) //创建连接的最长时间,单位毫秒

.setConnectionRequestTimeout(10000) //设置获取链接的最长时间,单位毫秒

.setSocketTimeout(10000) //设置数据传输的最长时间,单位毫秒

.build();

return config;

}

根据请求地址获取响应信息方法,获取成功后返回响应信息。

public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {

//创建HTTPClient对象

CloseableHttpClient httpClient = HttpClients.createDefault();

//设置请求地址

//创建URLBuilder

URIBuilder uriBuilder = new URIBuilder(url);

//设置参数

if(!map.isEmpty()){

for(String key : map.keySet()){

uriBuilder.setParameter(key, map.get(key));

}

}

//创建HTTPGet对象,设置url访问地址

//uriBuilder.build()得到请求地址

HttpGet httpGet = new HttpGet(uriBuilder.build());

//设置请求头信息

if(!mapTile.isEmpty()){

for(String key : mapTile.keySet()){

httpGet.addHeader(key, mapTile.get(key));

}

}

//设置请求信息

httpGet.setConfig(getConfig());

System.out.println(“发起请求的信息:”+httpGet);

//使用HTTPClient发起请求,获取response

CloseableHttpResponse response = null;

try {

response = httpClient.execute(httpGet);

//解析响应

if(response.getStatusLine().getStatusCode() == 200){

//判断响应体Entity是否不为空,如果不为空就可以使用EntityUtils

if(response.getEntity() != null) {

String content = EntityUtils.toString(response.getEntity(), “utf8”);

return content;

}

}

}catch (IOException e){

e.printStackTrace();

}finally {

//关闭response

try {

response.close();

} catch (IOException e) {

e.printStackTrace();

}

}

return “”;

}

根据链接下载图片保存到本地方法。

public static String doGetImage(String url) throws IOException {

//获取HTTPClient对象

CloseableHttpClient httpClient = HttpClients.createDefault();

//设置HTTPGet请求对象,设置url地址

HttpGet httpGet = new HttpGet(url);

//设置请求信息

httpGet.setConfig(getConfig());

//使用HTTPClient发起请求,获取响应

CloseableHttpResponse response = null;

try {

//使用HTTPClient发起请求,获取响应

response = httpClient.execute(httpGet);

//解析响应,返回结果

if(response.getStatusLine().getStatusCode() == 200){

//判断响应体Entity是否不为空

if(response.getEntity() != null) {

//下载图片

//获取图片的后缀

String extName = url.substring(url.lastIndexOf(“.”));

//创建图片名,重命名图片

String picName = UUID.randomUUID().toString() + extName;

//下载图片

//声明OutputStream

OutputStream outputStream = new FileOutputStream(new File(“E://imges/” + picName));

response.getEntity().writeTo(outputStream);

//返回图片名称

return picName;

}

}

} catch (IOException e) {

e.printStackTrace();

}finally {

//关闭response

if(response != null){

try {

response.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

return “”;

}

HttpUtils工具类全部代码。

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.OutputStream;

import java.net.URISyntaxException;

import java.util.Map;

import java.util.UUID;

import org.apache.http.client.config.RequestConfig;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.client.utils.URIBuilder;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;

import org.apache.http.util.EntityUtils;

public class HttpUtils {

//创建连接池管理器

private static PoolingHttpClientConnectionManager cm;

public HttpUtils(){

cm = new PoolingHttpClientConnectionManager();

//设置最大连接数

cm.setMaxTotal(100);

//设置每个主机的最大连接数

cm.setDefaultMaxPerRoute(10);

}

//配置请求信息

private static RequestConfig getConfig() {

RequestConfig config = RequestConfig.custom()

.setConnectTimeout(10000) //创建连接的最长时间,单位毫秒

.setConnectionRequestTimeout(10000) //设置获取链接的最长时间,单位毫秒

.setSocketTimeout(10000) //设置数据传输的最长时间,单位毫秒

.build();

return config;

}

/**

  • 根据请求地址下载页面数据

  • @param url 请求路径

  • @param map 请求参数

  • @param mapTile 请求头

  • @return //页面数据

  • @throws URISyntaxException

*/

public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {

//创建HTTPClient对象

CloseableHttpClient httpClient = HttpClients.createDefault();

//设置请求地址

//创建URLBuilder

URIBuilder uriBuilder = new URIBuilder(url);

//设置参数

if(!map.isEmpty()){

for(String key : map.keySet()){

uriBuilder.setParameter(key, map.get(key));

}

}

//创建HTTPGet对象,设置url访问地址

//uriBuilder.build()得到请求地址

HttpGet httpGet = new HttpGet(uriBuilder.build());

//设置请求头信息

if(!mapTile.isEmpty()){

for(String key : mapTile.keySet()){

httpGet.addHeader(key, mapTile.get(key));

}

}

//设置请求信息

httpGet.setConfig(getConfig());

System.out.println(“发起请求的信息:”+httpGet);

//使用HTTPClient发起请求,获取response

CloseableHttpResponse response = null;

try {

response = httpClient.execute(httpGet);

//解析响应

if(response.getStatusLine().getStatusCode() == 200){

//判断响应体Entity是否不为空,如果不为空就可以使用EntityUtils

if(response.getEntity() != null) {

String content = EntityUtils.toString(response.getEntity(), “utf8”);

return content;

}

}

}catch (IOException e){

e.printStackTrace();

}finally {

//关闭response

try {

response.close();

} catch (IOException e) {

e.printStackTrace();

}

}

return “”;

}

/**

  • 下载图片

  • @param url

  • @return 图片名称

*/

public static String doGetImage(String url) throws IOException {

//获取HTTPClient对象

CloseableHttpClient httpClient = HttpClients.createDefault();

//设置HTTPGet请求对象,设置url地址

HttpGet httpGet = new HttpGet(url);

//设置请求信息

httpGet.setConfig(getConfig());

//使用HTTPClient发起请求,获取响应

CloseableHttpResponse response = null;

try {

//使用HTTPClient发起请求,获取响应

response = httpClient.execute(httpGet);

//解析响应,返回结果

if(response.getStatusLine().getStatusCode() == 200){

//判断响应体Entity是否不为空

if(response.getEntity() != null) {

//下载图片

//获取图片的后缀

String extName = url.substring(url.lastIndexOf(“.”));

//创建图片名,重命名图片

String picName = UUID.randomUUID().toString() + extName;

//下载图片

//声明OutputStream

OutputStream outputStream = new FileOutputStream(new File(“E://imges/” + picName));

response.getEntity().writeTo(outputStream);

//返回图片名称

return picName;

}

}

} catch (IOException e) {

e.printStackTrace();

}finally {

//关闭response
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)

img

总结

一般像这样的大企业都有好几轮面试,所以自己一定要花点时间去收集整理一下公司的背景,公司的企业文化,俗话说「知己知彼百战不殆」,不要盲目的去面试,还有很多人关心怎么去跟HR谈薪资。

这边给大家一个建议,如果你的理想薪资是30K,你完全可以跟HR谈33~35K,而不是一下子就把自己的底牌暴露了出来,不过肯定不能说的这么直接,比如原来你的公司是25K,你可以跟HR讲原来的薪资是多少,你们这边能给到我的是多少?你说我这边希望可以有一个20%涨薪。

最后再说几句关于招聘平台的,总之,简历投递给公司之前,请确认下这家公司到底咋样,先去百度了解下,别被坑了,每个平台都有一些居心不良的广告党等着你上钩,千万别上当!!!

Java架构学习资料,学习技术内容包含有:Spring,Dubbo,MyBatis, RPC, 源码分析,高并发、高性能、分布式,性能优化,微服务 高级架构开发等等。

还有Java核心知识点+全套架构师学习资料和视频+一线大厂面试宝典+面试简历模板可以领取+阿里美团网易腾讯小米爱奇艺快手哔哩哔哩面试题+Spring源码合集+Java架构实战电子书。
在这里插入图片描述

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!
…(img-mJOLImC4-1713303735213)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)

img

总结

一般像这样的大企业都有好几轮面试,所以自己一定要花点时间去收集整理一下公司的背景,公司的企业文化,俗话说「知己知彼百战不殆」,不要盲目的去面试,还有很多人关心怎么去跟HR谈薪资。

这边给大家一个建议,如果你的理想薪资是30K,你完全可以跟HR谈33~35K,而不是一下子就把自己的底牌暴露了出来,不过肯定不能说的这么直接,比如原来你的公司是25K,你可以跟HR讲原来的薪资是多少,你们这边能给到我的是多少?你说我这边希望可以有一个20%涨薪。

最后再说几句关于招聘平台的,总之,简历投递给公司之前,请确认下这家公司到底咋样,先去百度了解下,别被坑了,每个平台都有一些居心不良的广告党等着你上钩,千万别上当!!!

Java架构学习资料,学习技术内容包含有:Spring,Dubbo,MyBatis, RPC, 源码分析,高并发、高性能、分布式,性能优化,微服务 高级架构开发等等。

还有Java核心知识点+全套架构师学习资料和视频+一线大厂面试宝典+面试简历模板可以领取+阿里美团网易腾讯小米爱奇艺快手哔哩哔哩面试题+Spring源码合集+Java架构实战电子书。
[外链图片转存中…(img-llWMcwCw-1713303735214)]

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值