- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 Spark的ReduceByKey和GroupByKey的区别
Spark的ReduceByKey和GroupByKey的区别ReduceByKey和GroupByKey其实和Hadoop的MapReduce中的是否带有combinner一样的道理,无论是ReduceBuKey还是GroupByKey返回的结果都是RDD。ReduceByKey:说白了就是带有Commbiner的操作,也就是说ReduceBykey会减少Map端的输出,在Map端输出的时候...
2020-01-31 16:24:19 309
DataX数据的迁移(MySQL、HDFS,Hive)
1.将Mysql中的数据迁移到Hdfs文件系统中,然后通过Hive加载HDFS文件系统中的数据值
2.将Hive中的数据迁移到指定Mysql数据库中
注意点:
1.数据迁移的过程中,由于hive的Null值存储为"\N",Mysql存储为NULL值,二者转换时需要注意,再数据迁移json模板中,"nullFormat": "\\N", 该配置信息就是解决了数据迁移是存在的Null值。
2.如果hive中没有数值DataX迁移时会出现异常
执行语句:python /opt/module/datax/bin/datax.py /opt/module/datax/job/xxx.json
2022-04-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人