使用Spark Streaming处理爬取的数据(问题总结)

本文总结了在使用Java爬取数据并利用Spark Streaming处理后存入MySQL数据库过程中遇到的问题。包括并发时数据库连接耗尽、数据处理延迟、static变量控制困难、数据库策略不当及线程管理不足等。提出改进方案,如通过Kafka缓冲数据,控制static变量,优化数据库存取策略,并强调了现有方案存在的数据丢失和不准确的风险。后续将针对并发和数据存储的错误进行修复和完善。
摘要由CSDN通过智能技术生成

一 .背景
       使用java爬取所需的数据,使用spark streaming处理数据后,存入数据库(用的mysql,但不推荐,有很大的后遗症),使用web重新展示出来。

二 .代码

     1.原先的想法与实现

  • 数据库连接池的定义(时间自定义)
package org.com.wh;

import org.apache.commons.dbcp.BasicDataSource;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;

import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

/**
 * Created by root on 8/2/16.
 */
public class ConnectionPoolTitle {
   
    private static Log log = LogFactory.getLog(ConnectionPoolTitle.class);
    private static BasicDataSource bs = null;

    public static BasicDataSource getDataSource() throws Exception{
        if(bs == null){
            bs = new BasicDataSource();
            bs.setDriverClassName("com.mysql.jdbc.Driver");
            bs.setUrl("jdbc:mysql://master:3306/spark");
            bs.setUsername("xxxxx");
            bs.setPassword("xxxxx");
            bs.setMaxActive(500);//设置数据库最大并发数
            bs.setInitialSize(50);//数据库初始化时建立的连接数
            bs.setMinIdle(50);//最小空闲连接数
            bs.setMaxIdle(500);//数据库最大连接数
            bs.setMaxWait(1000);
            bs.setMinEvictableIdleTimeMillis(6);//空闲连接6ms后释放
            bs.setTimeBetweenEvictionRunsMillis(60*1000);//检测是否有死掉的线程
            bs.setTestOnBorrow(true);
        }
        return bs;
    }

    public static void shutDownDataSource() throws Exception{
        if(bs!=null){
            bs.close();
        }
    }

    public static Connection getConnection(){
        Connection connection = null;
        try {
            if (bs != null) {
                connection = bs.getConnection();
            } else {
                connection = getDataSource().getConnection();
            }
        }catch(SQLException e){
            log.error(e.getMessage(),e);
        }catch(Exception e){
            log.error(e.getMessage(),e);
        }
        return connection;
    }

    public static void closeConnection(ResultSet rs, Statement ps, Connection con){
        if(rs!=null){
            try {
                rs.close();
            }catch(SQLException e){
                log.error("rs is Exception"+e.getMessage(),e);
            }
        }
        if(ps!=null){
            try {
                ps.close();
            }catch (SQLException e){
                log.error("ps is Exception"+e.getMessage(),e);
            }
        }
        if(con!=null){
            try {
                con.close();
            }catch (SQLException e){
                log.error("con is Exception"+e.getMessage(),e);
            }
        }
    }
}
  • 线程池的定义
package org.com.wh;

import scala.Tuple2;

import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

/**
 * Created by root on 8/6/16.
 */
public class ThreadPool {
   
    private static ExecutorService pool = Executors.newFixedThreadPool(20);//定义一个有界线程池,20个线程
    private Tuple2<String,In
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值