大数据时代单表数据同步之SPARK实现(一)

本文介绍了如何使用Spark进行大数据同步,从关系型数据库到HDFS,涉及配置文件设置、动态读取数据库、分区策略以及输出文件格式。讨论了在处理分库分表策略下的数据同步问题,特别是应对A/B表策略时的挑战,强调了DB承载能力和Spark读写线程数的平衡。此解决方案适用于大部分日常需求,可作为进一步复杂业务场景的基础。
摘要由CSDN通过智能技术生成

背景

随着电子商务的发展,历史最终选择了三足鼎立的格局去稳定市场,产生了传统电子商务三强:阿里,京东,苏宁易购(阿里,京东日均PV早已是亿级别以上,苏宁易购日均PV也至少应该五千万级左右)。显然这些数据中蕴藏着无情无尽的财富,如何利用这些数据便是当下大数据开发工程师们首先需要解决的问题~既然有大数据,那必然会牵扯到集群数据的迁移,同步等类ETL工作。本文主要介绍博主最近一周实现的利用spark同步关系型数据库数据至HDFS,并实现配置化。

场景

电子商务网站对商品库存,价格等核心指标必然会采用分库分表的策略去存储,大体上都是通过itemcode取模进行存储。
例:
这里写图片描述
product是表头,十六进制0~f循环

配置文件设置

 <table>
        <name>product</name>
        <isAble>2</isAble>
        <partitions>15</partitions>
        <fileds>*</fileds>
        <relyOn></relyOn>
        <datasources username="test"
                     passwd="test"
                     url="jdbc:mysql://test:3388/prodb01"
                     prefix="0,1,2,3"
                     suffix="0,1,2,3,4,5,6,7,8,9,a,b,c,d,e,f"
                     prdeicates="istate = 1"
                     driver="com.mysql.jdbc.Driver"/>
        <datasources username="test"
                     passwd="test"
                     url="jdbc:mysql://test
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值