java 爬虫实现爬豆瓣电影数据并存入mysql数据库

本文介绍了一个使用Java实现的爬虫程序,该程序通过httpclient库请求豆瓣电影网页,然后利用jsoup库解析数据。爬取到的数据最终被存储到MySQL数据库中,提供了详细的代码示例。
摘要由CSDN通过智能技术生成

很久以前写的用java爬取豆瓣电影数据的程序,使用httpclient进行网页请求,使用jsoup进行解析,注释很清楚,所以直接上代码:
(1)jar包:
这里写图片描述
(2)爬取类

package crawl;

import org.apache.http.*;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.*;
import java.util.ArrayList;

public class RetrivePage {
   

    private static CloseableHttpClient httpclient = HttpClients.createDefault();       //创建一个客户端
    private static String filename = "d:"+File.separator+File.separator+"liudehua.html";      //定义输出html文件的路径
    private static String outfile = "d:"+File.separator+File.separator+"liudehua.csv";          //定义输出csv文件的路径
    private static boolean bfile = true;                 // 定义控制输出file的boolean变量
    private static boolean bdb = true;                  // 定义控制输出file的boolean变量
    private static ArrayList<String> datalist = new ArrayList<String>();            //定义Arraylist类集用来保存每一条数据的信息
    private static String headtitle = "电影名称,上映时间,导演,演员,评价人数";               //打印的标题头
    private static int countrs = 0;                         //计数变量

    /**
     * 下载页面
     */
    public static String downloadPage(String url) throws Exception {

        String htmlString = "";         //定义返回的String变量
        HttpGet request = new HttpGet(url);             //请求资源

        CloseableHttpResponse response = httpclient.execute(request);           //得到回应

        try {

            System.out.println(response.getStatusLine());               //打印状态码

            HttpEntity entity = response.getEntity();                   //获得Entity对象
            htmlString = EntityUtils.t
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值