自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_33536353的博客

原创 Spark调优：驱动器OutOfMemory优化

首先说一下背景，我样本量1万，特征近1000个，用spark计算特征的缺失值比例，最开始想到的是遍历每个特征，分别计算，代码如下。def Identify_Missing(df, columns, all_cnt, missing_threshold=0.80): drop_columns = [] # 计算缺失率 progress_bar = tqdm(columns) for c in progress_bar: # 显示进度 progress_bar.set_descriptio

2020-09-22 22:51:58 675

原创 pyspark回写Vector字段到hive表

出于性能的考虑，在跑模型前通常将数据预处理完毕后，先将组装好的SparseVector特征写入到hive表，这个时候就会遇到怎么用hive表存储复杂类型的Vector了。首先看一下，SparseVector长什么样，有如下两种：# 格式一： Vector.sparse(向量长度，（索引，数值），（索引，数值），（索引，数值），...(索引，数值))SparseVector(10, {0: 1.0, 1: 1.0, 2: 1.0})# 格式二：Vector.sparse(向量长度，索引数组，与索引数

2020-05-16 23:53:59 918

原创 Pyspark动态回写Hive分区表

由于要处理大批量数据，涉及到线上交互，比较看重时效，所以这几个月来一直用pyspark跑模型，遇到很多问题，比如说回写预测结果到hive分区表。下面是第一种尝试，但奇怪地是，分区没有生效，回写的时候会将存量数据全删掉，再插入。# 以dt为分区回写df.write.mode("overwrite").format("orc").partitionBy("dt").saveAsTable("aicloud.cust_features")当时时间紧张，没来得及探索原因，直接尝试了第二种，如下：# 先

2020-05-16 22:56:32 2941

原创 hive报错整理之Malformed ORC file 、Invalid postscript.

java.io.IOException: Malformed ORC file

2016-03-24 11:55:54 18563

原创 Hive报错整理02

Malformed ORC file hdfs://XXX. Invalid postscript.Diagnostic

2016-03-17 22:57:24 1483

原创 Hive运行报错整理01

Hive报错之buildSupportsSnappy()

2016-03-16 23:41:06 1185

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除