自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Spark调优:驱动器OutOfMemory优化

首先说一下背景,我样本量1万,特征近1000个,用spark计算特征的缺失值比例,最开始想到的是遍历每个特征,分别计算,代码如下。def Identify_Missing(df, columns, all_cnt, missing_threshold=0.80): drop_columns = [] # 计算缺失率 progress_bar = tqdm(columns) for c in progress_bar: # 显示进度 progress_bar.set_descriptio

2020-09-22 22:51:58 602

原创 pyspark回写Vector字段到hive表

出于性能的考虑,在跑模型前通常将数据预处理完毕后,先将组装好的SparseVector特征写入到hive表,这个时候就会遇到怎么用hive表存储复杂类型的Vector了。首先看一下,SparseVector长什么样,有如下两种:# 格式一: Vector.sparse(向量长度,(索引,数值),(索引,数值),(索引,数值),...(索引,数值))SparseVector(10, {0: 1.0, 1: 1.0, 2: 1.0})# 格式二:Vector.sparse(向量长度,索引数组,与索引数

2020-05-16 23:53:59 839

原创 Pyspark动态回写Hive分区表

由于要处理大批量数据,涉及到线上交互,比较看重时效,所以这几个月来一直用pyspark跑模型,遇到很多问题,比如说回写预测结果到hive分区表。下面是第一种尝试,但奇怪地是,分区没有生效,回写的时候会将存量数据全删掉,再插入。# 以dt为分区回写df.write.mode("overwrite").format("orc").partitionBy("dt").saveAsTable("aicloud.cust_features")当时时间紧张,没来得及探索原因,直接尝试了第二种,如下:# 先

2020-05-16 22:56:32 2816

原创 hive报错整理之Malformed ORC file 、Invalid postscript.

java.io.IOException: Malformed ORC file

2016-03-24 11:55:54 18103 1

原创 Hive报错整理02

Malformed ORC file hdfs://XXX. Invalid postscript.Diagnostic

2016-03-17 22:57:24 1333 1

原创 Hive运行报错整理01

Hive报错之buildSupportsSnappy()

2016-03-16 23:41:06 1097

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除