打开浏览器f12,地址栏中输入该地址访问,可以看到请求响应的页面,对应可以找到电影数据的请求地址,数据请求地址
https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0
可以看到数据请求地址响应过来的是一个JSON格式的数据,之后我们看到请求地址上的参数type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0。其中type是电影tag是标签,sort是按照热门进行排序的,page_limit是每页20条数据,page_start是从第几条数据开始查询(下标从0开始)。但是这不是我们想要的,我们需要去找豆瓣电影数据的总入口地址是下面这个
https://movie.douban.com/j/search_subjects
创建SpringBoot项目爬取数据
把爬取到的数据保存到数据库中,电影图片保存在本地磁盘中,这里持久层用的是JPA,所以需要引入对应的依赖。pom.xml中依赖代码如下。
<?xml version="1.0" encoding="UTF-8"?><project xmlns=“http://maven.apache.org/POM/4.0.0” xmlns:xsi=“http://www.w3.org/2001/XMLSchema-instance”
xsi:schemaLocation=“http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd”>
4.0.0
org.springframework.boot
spring-boot-starter-parent
2.2.1.RELEASE
com.mcy
crawler-douban
0.0.1-SNAPSHOT
crawler-douban
Demo project for Spring Boot
<java.version>1.8</java.version>
org.springframework.boot
spring-boot-starter-data-jpa
org.springframework.boot
spring-boot-starter-web
mysql
mysql-connector-java
runtime
org.springframework.boot
spring-boot-starter-test
test
org.junit.vintage
junit-vintage-engine
org.apache.httpcomponents
httpclient
4.5.2
org.jsoup
jsoup
1.11.3
com.alibaba
fastjson
1.2.47
org.springframework.boot
spring-boot-maven-plugin
项目目录结构如下。
首先我们在entity包中建立实体对象,字段为豆瓣电影的基本信息(有些信息是详情页面的信息)。
Movie实体类。
import javax.persistence.*;
@Entity
public class Movie {
private Integer id;
private double rate; //评分
private String title; //电影名称
private String director; //导演
private String protagonist; //主演
private String dateTime; //电影时长
@Id
@GeneratedValue(strategy = GenerationType.IDENTITY)
public Integer getId() {
return id;
}
public void setId(Integer id) {
this.id = id;
}
public double getRate() {
return rate;
}
public void setRate(double rate) {
this.rate = rate;
}
public String getTitle() {
return title;
}
public void setTitle(String title) {
this.title = title;
}
public String getDirector() {
return director;
}
public void setDirector(String director) {
this.director = director;
}
@Column(length=2000)
public String getProtagonist() {
return protagonist;
}
public void setProtagonist(String protagonist) {
this.protagonist = protagonist;
}
public String getDateTime() {
return dateTime;
}
public void setDateTime(String dateTime) {
this.dateTime = dateTime;
}
}
在src/main/resources下找到application.properties文件,在该配置文件中配置数据库链接信息,需要在数据库中新建一个名为douban的数据库。
spring.datasource.url=jdbc:mysql://localhost:3306/douban?serverTimezone=GMT%2B8
spring.datasource.username=root
spring.datasource.password=root
spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver
spring.jpa.database-platform=org.hibernate.dialect.MySQL5InnoDBDialect
spring.jpa.show-sql=true
spring.jpa.hibernate.ddl-auto=update
spring.jpa.hibernate.use-new-id-generator-mappings=false
创建MovieRepository数据访问层接口
import com.mcy.crawlerdouban.entity.Movie;
import org.springframework.data.jpa.repository.JpaRepository;
public interface MovieRepository extends JpaRepository<Movie, Integer> {
}
创建MovieService类,里边有一个保存数据的方法。
import com.mcy.crawlerdouban.entity.Movie;
import com.mcy.crawlerdouban.repository.MovieRepository;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;
@Service
public class MovieService {
@Autowired
private MovieRepository movieRepository;
public void save(Movie movie) {
movieRepository.save(movie);
}
}
创建一个HttpUtils获取网页数据和保存图片的工具类。
创建连接池和配置连接池信息。
//创建连接池管理器
private static PoolingHttpClientConnectionManager cm;
public HttpUtils(){
cm = new PoolingHttpClientConnectionManager();
//设置最大连接数
cm.setMaxTotal(100);
//设置每个主机的最大连接数
cm.setDefaultMaxPerRoute(10);
}
//配置请求信息
private static RequestConfig getConfig() {
RequestConfig config = RequestConfig.custom()
.setConnectTimeout(10000) //创建连接的最长时间,单位毫秒
.setConnectionRequestTimeout(10000) //设置获取链接的最长时间,单位毫秒
.setSocketTimeout(10000) //设置数据传输的最长时间,单位毫秒
.build();
return config;
}
根据请求地址获取响应信息方法,获取成功后返回响应信息。
public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {
//创建HTTPClient对象
CloseableHttpClient httpClient = HttpClients.createDefault();
//设置请求地址
//创建URLBuilder
URIBuilder uriBuilder = new URIBuilder(url);
//设置参数
if(!map.isEmpty()){
for(String key : map.keySet()){
uriBuilder.setParameter(key, map.get(key));
}
}
//创建HTTPGet对象,设置url访问地址
//uriBuilder.build()得到请求地址
HttpGet httpGet = new HttpGet(uriBuilder.build());
//设置请求头信息
if(!mapTile.isEmpty()){
for(String key : mapTile.keySet()){
httpGet.addHeader(key, mapTile.get(key));
}
}
//设置请求信息
httpGet.setConfig(getConfig());
System.out.println(“发起请求的信息:”+httpGet);
//使用HTTPClient发起请求,获取response
CloseableHttpResponse response = null;
try {
response = httpClient.execute(httpGet);
//解析响应
if(response.getStatusLine().getStatusCode() == 200){
//判断响应体Entity是否不为空,如果不为空就可以使用EntityUtils
if(response.getEntity() != null) {
String content = EntityUtils.toString(response.getEntity(), “utf8”);
return content;
}
}
}catch (IOException e){
e.printStackTrace();
}finally {
//关闭response
try {
response.close();
} catch (IOException e) {
e.printStackTrace();
}
}
return “”;
}
根据链接下载图片保存到本地方法。
public static String doGetImage(String url) throws IOException {
//获取HTTPClient对象
CloseableHttpClient httpClient = HttpClients.createDefault();
//设置HTTPGet请求对象,设置url地址
HttpGet httpGet = new HttpGet(url);
//设置请求信息
httpGet.setConfig(getConfig());
//使用HTTPClient发起请求,获取响应
CloseableHttpResponse response = null;
try {
//使用HTTPClient发起请求,获取响应
response = httpClient.execute(httpGet);
//解析响应,返回结果
if(response.getStatusLine().getStatusCode() == 200){
//判断响应体Entity是否不为空
if(response.getEntity() != null) {
//下载图片
//获取图片的后缀
String extName = url.substring(url.lastIndexOf(“.”));
//创建图片名,重命名图片
String picName = UUID.randomUUID().toString() + extName;
//下载图片
//声明OutputStream
OutputStream outputStream = new FileOutputStream(new File(“E://imges/” + picName));
response.getEntity().writeTo(outputStream);
//返回图片名称
return picName;
}
}
} catch (IOException e) {
e.printStackTrace();
}finally {
//关闭response
if(response != null){
try {
response.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
return “”;
}
HttpUtils工具类全部代码。
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.net.URISyntaxException;
import java.util.Map;
import java.util.UUID;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.utils.URIBuilder;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
import org.apache.http.util.EntityUtils;
public class HttpUtils {
//创建连接池管理器
private static PoolingHttpClientConnectionManager cm;
public HttpUtils(){
cm = new PoolingHttpClientConnectionManager();
//设置最大连接数
cm.setMaxTotal(100);
//设置每个主机的最大连接数
cm.setDefaultMaxPerRoute(10);
}
//配置请求信息
private static RequestConfig getConfig() {
RequestConfig config = RequestConfig.custom()
.setConnectTimeout(10000) //创建连接的最长时间,单位毫秒
.setConnectionRequestTimeout(10000) //设置获取链接的最长时间,单位毫秒
.setSocketTimeout(10000) //设置数据传输的最长时间,单位毫秒
.build();
return config;
}
/**
-
根据请求地址下载页面数据
-
@param url 请求路径
-
@param map 请求参数
-
@param mapTile 请求头
-
@return //页面数据
-
@throws URISyntaxException
*/
public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {
//创建HTTPClient对象
CloseableHttpClient httpClient = HttpClients.createDefault();
//设置请求地址
//创建URLBuilder
URIBuilder uriBuilder = new URIBuilder(url);
//设置参数
if(!map.isEmpty()){
for(String key : map.keySet()){
uriBuilder.setParameter(key, map.get(key));
}
}
//创建HTTPGet对象,设置url访问地址
//uriBuilder.build()得到请求地址
HttpGet httpGet = new HttpGet(uriBuilder.build());
//设置请求头信息
if(!mapTile.isEmpty()){
for(String key : mapTile.keySet()){
httpGet.addHeader(key, mapTile.get(key));
}
}
//设置请求信息
httpGet.setConfig(getConfig());
System.out.println(“发起请求的信息:”+httpGet);
//使用HTTPClient发起请求,获取response
CloseableHttpResponse response = null;
try {
response = httpClient.execute(httpGet);
//解析响应
if(response.getStatusLine().getStatusCode() == 200){
//判断响应体Entity是否不为空,如果不为空就可以使用EntityUtils
if(response.getEntity() != null) {
String content = EntityUtils.toString(response.getEntity(), “utf8”);
return content;
}
}
}catch (IOException e){
e.printStackTrace();
}finally {
//关闭response
try {
response.close();
} catch (IOException e) {
e.printStackTrace();
}
}
return “”;
}
/**
-
下载图片
-
@param url
-
@return 图片名称
*/
public static String doGetImage(String url) throws IOException {
//获取HTTPClient对象
CloseableHttpClient httpClient = HttpClients.createDefault();
//设置HTTPGet请求对象,设置url地址
HttpGet httpGet = new HttpGet(url);
//设置请求信息
httpGet.setConfig(getConfig());
//使用HTTPClient发起请求,获取响应
CloseableHttpResponse response = null;
try {
//使用HTTPClient发起请求,获取响应
response = httpClient.execute(httpGet);
//解析响应,返回结果
if(response.getStatusLine().getStatusCode() == 200){
//判断响应体Entity是否不为空
if(response.getEntity() != null) {
//下载图片
//获取图片的后缀
String extName = url.substring(url.lastIndexOf(“.”));
//创建图片名,重命名图片
String picName = UUID.randomUUID().toString() + extName;
//下载图片
//声明OutputStream
OutputStream outputStream = new FileOutputStream(new File(“E://imges/” + picName));
response.getEntity().writeTo(outputStream);
//返回图片名称
return picName;
}
}
} catch (IOException e) {
e.printStackTrace();
}finally {
//关闭response
最后
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Java工程师,想要提升技能,往往是自己摸索成长,自己不成体系的自学效果低效漫长且无助。
因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,不论你是刚入门Android开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!
如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
dexOf(“.”));
//创建图片名,重命名图片
String picName = UUID.randomUUID().toString() + extName;
//下载图片
//声明OutputStream
OutputStream outputStream = new FileOutputStream(new File(“E://imges/” + picName));
response.getEntity().writeTo(outputStream);
//返回图片名称
return picName;
}
}
} catch (IOException e) {
e.printStackTrace();
}finally {
//关闭response
最后
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Java工程师,想要提升技能,往往是自己摸索成长,自己不成体系的自学效果低效漫长且无助。
因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
[外链图片转存中…(img-sG78YBPE-1715442449473)]
[外链图片转存中…(img-n2iz0a48-1715442449473)]
[外链图片转存中…(img-C1qVnpzz-1715442449474)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,不论你是刚入门Android开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!
如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!