大数据
dkjkls
简书主页:https://www.jianshu.com/u/1c23f6c45d0e
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark中集合类型ArrayType/MapType与explode方法的使用
版权声明:本文为博主原创文章,未经博主允许不得转载。 背景:需要对DataFrame中部分字段聚合,再通过udf对聚合的字段列表进行处理,返回列表,再把返回的列表字段列转行,如下: group_id feature_1 feature_2 feature_3 1 1.11 1.21 1.31 1 1.12 1.22 1.32 2 2.11 2.21 2.31 2 2...原创 2019-03-25 00:23:26 · 7068 阅读 · 0 评论 -
Hive表字段类型修改
1.分区表的复制 1.1 使用动态分区插入复制表 A 创建一张和原表一样表结构的复制表 B 通过插入语句(insert overwrite),使用动态分区把数据导入复制表 SET hive.exec.dynamic.partition.mode=nonstrict; CREATE TABLE table_copy like table_original; INSERT overwrite TABL...原创 2019-05-20 00:45:16 · 8913 阅读 · 0 评论 -
SparkSQL UDF 返回类型不能包含NUMPY类型
版权声明:本文为博主原创文章,未经博主允许不得转载。 Spark版本: 2.1.1 问题:SparkSQL UDF 返回类型包含NUMPY类型,报错: PickleException: expected zero arguments for construction of ClassDict (for numpy.dtype) 如下方代码所示,定义的udf返回类型为包含dict的list,在u...原创 2019-06-02 19:32:02 · 1230 阅读 · 0 评论 -
Pandas DataFrame 新增操作最佳实践
版权声明:本文为博主原创文章,未经博主允许不得转载。 1 背景 项目中需对已产生的 Pandas DataFrame 进行新增操作,想到的方法有四种: 直接使用 Pandas 的 append 方法 使用 Pandas 的 loc 方法 先转换为dict,再通过dict合并 使用list封装,再转换为DataFrame 2 性能验证 验证代码如下: # encoding: utf-8 "...原创 2019-06-17 01:13:37 · 1326 阅读 · 0 评论 -
批量插入更新 MySQL 服务优化
1 原执行步骤 从Hive中拉数据产出数据文件 主进程读文件,按子进程数切分 根据待插入集合,使用 ON DUPLICATE KEY UPDATE 批量更新或插入 table1(假设supply_id,order_id为联合唯一索引) 和 table2 INSERT INTO table1 (supply_id,order_id,num,end_time,status) VALUES (504...原创 2019-09-29 19:43:48 · 759 阅读 · 1 评论
分享