Java爬取豆瓣电影数据(1)

项目目录结构如下。

首先我们在entity包中建立实体对象,字段为豆瓣电影的基本信息(有些信息是详情页面的信息)。

Movie实体类。

import javax.persistence.*;

@Entity

public class Movie {

private Integer id;

private double rate; //评分

private String title; //电影名称

private String director; //导演

private String protagonist; //主演

private String dateTime; //电影时长

@Id

@GeneratedValue(strategy = GenerationType.IDENTITY)

public Integer getId() {

return id;

}

public void setId(Integer id) {

this.id = id;

}

public double getRate() {

return rate;

}

public void setRate(double rate) {

this.rate = rate;

}

public String getTitle() {

return title;

}

public void setTitle(String title) {

this.title = title;

}

public String getDirector() {

return director;

}

public void setDirector(String director) {

this.director = director;

}

@Column(length=2000)

public String getProtagonist() {

return protagonist;

}

public void setProtagonist(String protagonist) {

this.protagonist = protagonist;

}

public String getDateTime() {

return dateTime;

}

public void setDateTime(String dateTime) {

this.dateTime = dateTime;

}

}

在src/main/resources下找到application.properties文件,在该配置文件中配置数据库链接信息,需要在数据库中新建一个名为douban的数据库。

spring.datasource.url=jdbc:mysql://localhost:3306/douban?serverTimezone=GMT%2B8

spring.datasource.username=root

spring.datasource.password=root

spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver

spring.jpa.database-platform=org.hibernate.dialect.MySQL5InnoDBDialect

spring.jpa.show-sql=true

spring.jpa.hibernate.ddl-auto=update

spring.jpa.hibernate.use-new-id-generator-mappings=false

创建MovieRepository数据访问层接口

import com.mcy.crawlerdouban.entity.Movie;

import org.springframework.data.jpa.repository.JpaRepository;

public interface MovieRepository extends JpaRepository<Movie, Integer> {

}

创建MovieService类,里边有一个保存数据的方法。

import com.mcy.crawlerdouban.entity.Movie;

import com.mcy.crawlerdouban.repository.MovieRepository;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.stereotype.Service;

@Service

publi

必看视频!获取2024年最新Java开发全套学习资料 备注Java

c class MovieService {

@Autowired

private MovieRepository movieRepository;

public void save(Movie movie) {

movieRepository.save(movie);

}

}

创建一个HttpUtils获取网页数据和保存图片的工具类。

创建连接池和配置连接池信息。

//创建连接池管理器

private static PoolingHttpClientConnectionManager cm;

public HttpUtils(){

cm = new PoolingHttpClientConnectionManager();

//设置最大连接数

cm.setMaxTotal(100);

//设置每个主机的最大连接数

cm.setDefaultMaxPerRoute(10);

}

//配置请求信息

private static RequestConfig getConfig() {

RequestConfig config = RequestConfig.custom()

.setConnectTimeout(10000) //创建连接的最长时间,单位毫秒

.setConnectionRequestTimeout(10000) //设置获取链接的最长时间,单位毫秒

.setSocketTimeout(10000) //设置数据传输的最长时间,单位毫秒

.build();

return config;

}

根据请求地址获取响应信息方法,获取成功后返回响应信息。

public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {

//创建HTTPClient对象

CloseableHttpClient httpClient = HttpClients.createDefault();

//设置请求地址

//创建URLBuilder

URIBuilder uriBuilder = new URIBuilder(url);

//设置参数

if(!map.isEmpty()){

for(String key : map.keySet()){

uriBuilder.setParameter(key, map.get(key));

}

}

//创建HTTPGet对象,设置url访问地址

//uriBuilder.build()得到请求地址

HttpGet httpGet = new HttpGet(uriBuilder.build());

//设置请求头信息

if(!mapTile.isEmpty()){

for(String key : mapTile.keySet()){

httpGet.addHeader(key, mapTile.get(key));

}

}

//设置请求信息

httpGet.setConfig(getConfig());

System.out.println(“发起请求的信息:”+httpGet);

//使用HTTPClient发起请求,获取response

CloseableHttpResponse response = null;

try {

response = httpClient.execute(httpGet);

//解析响应

if(response.getStatusLine().getStatusCode() == 200){

//判断响应体Entity是否不为空,如果不为空就可以使用EntityUtils

if(response.getEntity() != null) {

String content = EntityUtils.toString(response.getEntity(), “utf8”);

return content;

}

}

}catch (IOException e){

e.printStackTrace();

}finally {

//关闭response

try {

response.close();

} catch (IOException e) {

e.printStackTrace();

}

}

return “”;

}

根据链接下载图片保存到本地方法。

public static String doGetImage(String url) throws IOException {

//获取HTTPClient对象

CloseableHttpClient httpClient = HttpClients.createDefault();

//设置HTTPGet请求对象,设置url地址

HttpGet httpGet = new HttpGet(url);

//设置请求信息

httpGet.setConfig(getConfig());

//使用HTTPClient发起请求,获取响应

CloseableHttpResponse response = null;

try {

//使用HTTPClient发起请求,获取响应

response = httpClient.execute(httpGet);

//解析响应,返回结果

if(response.getStatusLine().getStatusCode() == 200){

//判断响应体Entity是否不为空

if(response.getEntity() != null) {

//下载图片

//获取图片的后缀

String extName = url.substring(url.lastIndexOf(“.”));

//创建图片名,重命名图片

String picName = UUID.randomUUID().toString() + extName;

//下载图片

//声明OutputStream

OutputStream outputStream = new FileOutputStream(new File(“E://imges/” + picName));

response.getEntity().writeTo(outputStream);

//返回图片名称

return picName;

}

}

} catch (IOException e) {

e.printStackTrace();

}finally {

//关闭response

if(response != null){

try {

response.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

return “”;

}

HttpUtils工具类全部代码。

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.OutputStream;

import java.net.URISyntaxException;

import java.util.Map;

import java.util.UUID;

import org.apache.http.client.config.RequestConfig;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.client.utils.URIBuilder;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;

import org.apache.http.util.EntityUtils;

public class HttpUtils {

//创建连接池管理器

private static PoolingHttpClientConnectionManager cm;

public HttpUtils(){

cm = new PoolingHttpClientConnectionManager();

//设置最大连接数

cm.setMaxTotal(100);

//设置每个主机的最大连接数

cm.setDefaultMaxPerRoute(10);

}

//配置请求信息

private static RequestConfig getConfig() {

RequestConfig config = RequestConfig.custom()

.setConnectTimeout(10000) //创建连接的最长时间,单位毫秒

.setConnectionRequestTimeout(10000) //设置获取链接的最长时间,单位毫秒

.setSocketTimeout(10000) //设置数据传输的最长时间,单位毫秒

.build();

return config;

}

/**

  • 根据请求地址下载页面数据

  • @param url 请求路径

  • @param map 请求参数

  • @param mapTile 请求头

  • @return //页面数据

  • @throws URISyntaxException

*/

public static String doGetHtml(String url, Map<String, String> map, Map<String, String> mapTile) throws URISyntaxException {

//创建HTTPClient对象

CloseableHttpClient httpClient = HttpClients.createDefault();

//设置请求地址

//创建URLBuilder

URIBuilder uriBuilder = new URIBuilder(url);

//设置参数

if(!map.isEmpty()){

for(String key : map.keySet()){

uriBuilder.setParameter(key, map.get(key));

}

}

//创建HTTPGet对象,设置url访问地址

//uriBuilder.build()得到请求地址

HttpGet httpGet = new HttpGet(uriBuilder.build());

//设置请求头信息

if(!mapTile.isEmpty()){

for(String key : mapTile.keySet()){

httpGet.addHeader(key, mapTile.get(key));

}

}

//设置请求信息

httpGet.setConfig(getConfig());

System.out.println(“发起请求的信息:”+httpGet);

//使用HTTPClient发起请求,获取response

CloseableHttpResponse response = null;

try {

response = httpClient.execute(httpGet);

//解析响应

if(response.getStatusLine().getStatusCode() == 200){

//判断响应体Entity是否不为空,如果不为空就可以使用EntityUtils

if(response.getEntity() != null) {

String content = EntityUtils.toString(response.getEntity(), “utf8”);

return content;

}

}

}catch (IOException e){

e.printStackTrace();

}finally {

//关闭response

try {

response.close();

} catch (IOException e) {

e.printStackTrace();

}

}

return “”;

}

/**

  • 下载图片

  • @param url

  • @return 图片名称

*/

public static String doGetImage(String url) throws IOException {

//获取HTTPClient对象

CloseableHttpClient httpClient = HttpClients.createDefault();

//设置HTTPGet请求对象,设置url地址

HttpGet httpGet = new HttpGet(url);

//设置请求信息

httpGet.setConfig(getConfig());

//使用HTTPClient发起请求,获取响应

CloseableHttpResponse response = null;

try {

//使用HTTPClient发起请求,获取响应

response = httpClient.execute(httpGet);

//解析响应,返回结果

if(response.getStatusLine().getStatusCode() == 200){

//判断响应体Entity是否不为空

if(response.getEntity() != null) {

//下载图片

//获取图片的后缀

String extName = url.substring(url.lastIndexOf(“.”));

//创建图片名,重命名图片

String picName = UUID.randomUUID().toString() + extName;

//下载图片

//声明OutputStream

OutputStream outputStream = new FileOutputStream(new File(“E://imges/” + picName));

response.getEntity().writeTo(outputStream);

//返回图片名称

return picName;

}

}

} catch (IOException e) {

e.printStackTrace();

}finally {

//关闭response

if(response != null){

try {

response.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

return “”;

}

}

在项目的test类中编写代码获取数据保存到数据库中。

先通过@Resource注解将MovieService类对应的实现类注入进来。

@Autowired

private MovieService movieService;

设置请求地址https://movie.douban.com/j/search_subjects

String url = “https://movie.douban.com/j/search_subjects”;

之后在定义两个Map,用于存储请求头和请求参数信息。

网页请求头。

请求参数,type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0

设置请求参数和请求头代码如下。

Map<String, String> map = new HashMap<>();

Map<String, String> mapTitle = new HashMap<>();

//设置请求参数

map.put(“type”, “movie”);

map.put(“tag”, “热门”);

map.put(“sort”, “recommend”);

map.put(“page_limit”, “20”);

//i为一个变量,从多少条数据开始查询

map.put(“page_start”, i+“”);

//设置请求头

mapTitle.put(“Accept”, “text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8”);

mapTitle.put(“User-Agent”, “Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0”);

mapTitle.put(“Cookie”, “bid=QNoG_zn4mZY; _pk_id.100001.4cf6=6209709719896af7.1575619506.2.1575940374.1575621362.; __utma=30149280.1889677372.1575619507.1575619507.1575940335.2; __utmz=30149280.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.986359939.1575619507.1575619507.1575940335.2; __utmz=223695111.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=QVSP2uvzzDBrpnvHKzZpZEWJnuARZ4aL; ll=“118259”; _vwo_uuid_v2=D1FC45CAE50CF6EE38D245C68D7CECC4F|e8d1db73f4c914f0b0be7ed85ac50d14; trc_cookie_storage=taboola%2520global%253Auser-id%3D690a21c0-9ad9-4f8d-b997-f0decb3cfc9b-tuct4e39874; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w”);

通过HttpUtils类doGetHtml方法获取该请求响应的数据。

String html = HttpUtils.doGetHtml(url, map, mapTitle);

请求响应数据格式。

可以看出是一个json格式的数据,我们可以通过阿里巴巴的Fastjson一个json解析库,把它解析成为一个List格式数据。Fastjson基本用法

JSONObject jsonObject = JSONObject.parseObject(html);

JSONArray jsonArray = jsonObject.getJSONArray(“subjects”);

因为每页查询是是20条数据,我们用一个for循环遍历一下这一页的数据。可以获得电影的标题,评分,图片链接和详情页面的链接,上面JSON数据中的cover属性值为图片的地址。通过图片的链接我们可以调用HttpUtils类的doGetImage方法把图片保存到本地磁盘。

HttpUtils.doGetImage(json.getString(“cover”));

上面请求的数据只能获取到标题,评分和图片,然而我们还有获取导演,主演,和电影时长。这些信息我们点开上面请求到的json数据的url属性值,会打开详情页面,详情页面中有导演,主演,和电影时长信息。

打开的详情页面,我们可以看到导演,主演和电影时长等信息。

我们查询详情页面的源代码,可以看到导演,主演,电影时长等信息的位置。

我们在通过HttpUtils类doGetHtml方法获取详情页面的数据,利用Jsoup进行解析,Jsoup是一个可以让java代码解析HTML代码的一个工具,可以参考一下Jsoup官网文档,找到主演,导演和电影时长信息。到这里我们需要的全部信息都获取到了,最后把数据保存起来。

String url2 = json.getString(“url”);

Map<String, String> map2 = new HashMap<>();

Map<String, String> mapTitle2 = new HashMap<>();

String html2 = HttpUtils.doGetHtml(url2, map2, mapTitle2);

//解析HTML获取DOM对象

Document doc = Jsoup.parse(html2);

//获取导演名称

Element element = doc.select(“div#info a[rel=v:directedBy]”).first();

movie.setDirector(element.text());

Elements elements = doc.select(“div#info a[rel=v:starring]”);

//主演

String protagonist = “”;

最后

权威指南-第一本Docker书

引领完成Docker的安装、部署、管理和扩展,让其经历从测试到生产的整个开发生命周期,深入了解Docker适用于什么场景。并且这本Docker的学习权威指南介绍了其组件的基础知识,然后用Docker构建容器和服务来完成各种任务:利用Docker为新项目建立测试环境,演示如何使用持续集成的工作流集成Docker,如何构建应用程序服务和平台,如何使用Docker的API,如何扩展Docker。

总共包含了:简介、安装Docker、Docker入门、使用Docker镜像和仓库、在测试中使用Docker、使用Docker构建服务、使用Fig编配Docke、使用Docker API、获得帮助和对Docker进行改进等9个章节的知识。

image

image

image

image

关于阿里内部都在强烈推荐使用的“K8S+Docker学习指南”—《深入浅出Kubernetes:理论+实战》、《权威指南-第一本Docker书》,看完之后两个字形容,爱了爱了!
HashMap<>();

Map<String, String> mapTitle2 = new HashMap<>();

String html2 = HttpUtils.doGetHtml(url2, map2, mapTitle2);

//解析HTML获取DOM对象

Document doc = Jsoup.parse(html2);

//获取导演名称

Element element = doc.select(“div#info a[rel=v:directedBy]”).first();

movie.setDirector(element.text());

Elements elements = doc.select(“div#info a[rel=v:starring]”);

//主演

String protagonist = “”;

最后

权威指南-第一本Docker书

引领完成Docker的安装、部署、管理和扩展,让其经历从测试到生产的整个开发生命周期,深入了解Docker适用于什么场景。并且这本Docker的学习权威指南介绍了其组件的基础知识,然后用Docker构建容器和服务来完成各种任务:利用Docker为新项目建立测试环境,演示如何使用持续集成的工作流集成Docker,如何构建应用程序服务和平台,如何使用Docker的API,如何扩展Docker。

总共包含了:简介、安装Docker、Docker入门、使用Docker镜像和仓库、在测试中使用Docker、使用Docker构建服务、使用Fig编配Docke、使用Docker API、获得帮助和对Docker进行改进等9个章节的知识。

[外链图片转存中…(img-FQRTzH6N-1716463252914)]

[外链图片转存中…(img-K4NQ5H2K-1716463252915)]

[外链图片转存中…(img-3NeG85XP-1716463252915)]

[外链图片转存中…(img-5HKjsWtt-1716463252915)]

关于阿里内部都在强烈推荐使用的“K8S+Docker学习指南”—《深入浅出Kubernetes:理论+实战》、《权威指南-第一本Docker书》,看完之后两个字形容,爱了爱了!

  • 22
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值