做实验 遇到一个很经典的问题,分组concat 排序 去重。
下面分别用mysql、spark dataframe、spark sql和 rdd 实现这个需求
首先看mysql 表结构
-- ----------------------------
-- Table structure for `test`
-- ----------------------------
DROP TABLE IF EXISTS `test`;
CREATE TABLE `test` (
`time` varchar(20) DEFAULT NULL,
`app` varchar(20) DEFAULT NULL,
`appstore` varchar(20) DEFAULT NULL,
`version` varchar(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
-- ----------------------------
-- Records of test
-- ----------------------------
INSERT INTO `test` VALUES ('2019-01-14', '王者荣耀', 'TapTap', 'v2.1');
INSERT INTO `test` VALUES ('2019-01-14', '王者荣耀', 'app store', 'v1.2');
INSERT INTO `