数据同步
梅斌
这个作者很懒,什么都没留下…
展开
-
kafka适用哪些离线同步场景
一、源端为大量小文件,合并为一个大文件存储到hdfs a)为什么要把小文件合并为大文件大量的小文件同步到hdfs,对namenode的压力非常大,生成环境是不会允许如此使用集群的。 b)为什么选kafkaproducer可以将文件内容转成消息发送到topic,相当于在数据传输过程对小文件进行了合并 c)consumer将消息直接写到hdfs还是...原创 2018-08-01 17:25:28 · 1892 阅读 · 0 评论 -
快速将大数据(超过1T)导入mysql库
1、源数据超过1T,且都是sql文件,文件大小不等,有的文件大于100G2、硬件环境:一台liunx服务器,8核32G+5块1T的磁盘(a,b,c,d,e单块磁盘最大写入速度30M/S)3、mysql版本为5.64、要求:24小时内将数据全部导入问题分析: 考虑到导入过程中还会生成操作日志和索引等类容,数据导入后所需的存储空间将远大于1T, 单独一块磁盘肯定无法满足需...原创 2018-12-23 16:04:26 · 5477 阅读 · 0 评论