![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
Liu_Genie
这个作者很懒,什么都没留下…
展开
-
Tensorflow之dataset介绍
虽然搭建模型是算法的主要工作,但在实际应用中我们花在数据处理的时间远比搭建模型的多。而且每次由于数据格式不同,需要重复实现数据加载,构造batch以及shuffle等代码。记得之前接触过的Pytorch、Paddle等框架都有dataset的工具,当然tensorflow也不例外,经过一段时间的了解和实践,准备写下这篇博文来记录一下。TFrecord格式Tensorflow支持多种输入格...原创 2020-05-04 15:38:55 · 1269 阅读 · 3 评论 -
spark写入hive出现数据不一致
记录一下这次遇到的诡异的坑,就是spark写入hive出现数据不一致的问题。问题描述如下:使用spark创建dataframe,通过createOrReplaceTempView创建临时表检查创建的临时表,与DataFrame的数据保持一致执行插入hive分区的sql命令insert overwrite table xxx.xxx partition (pt)s...原创 2019-11-30 16:55:29 · 2415 阅读 · 0 评论 -
Spark ML CrossValidator获取最佳参数
获取所有参数组合以及对应的cv评估结果,zip之后进行排序(按照metric由好往坏),提取出对应的Param:value字典def getBestParam(cvModel): params = cvModel.getEstimatorParamMaps() avgMetrics = cvModel.avgMetrics all_params = list(zip(p...原创 2019-01-10 09:56:18 · 2414 阅读 · 0 评论 -
spark on yarn 配置
之前一直是在搭建好的集群上使用spark。 这次需要在新的集群上使用spark,但是集群只安装了hdfs和yarn组件。经过别人提醒,可以直接spark on yarn运行,经过收集资料,汇总如下:1. spark on yarn配置有关spark on yarn的配置参考:[https://blog.csdn.net/qq_21439395/article/details/80678372]...原创 2019-02-23 14:19:14 · 5397 阅读 · 0 评论 -
Spark读取hive表
Spark读取hive表hive相关安装问题,请参见别的资料由于在hive里面操作表是通过mapreduce的方式,效率较低,本文主要描述如何通过spark读取hive表到内存进行计算。第一步,先把$HIVE_HOME/conf/hive-site.xml放入$SPARK_HOME/conf内,使得spark能够获取hive配置本次主要遇到两个坑Hive在spark2.0.0启动时无...原创 2019-02-23 18:45:49 · 3682 阅读 · 0 评论 -
在scala编译的jar包中使用hive,通过spark-submit提交spark sql任务
之前一直是在交互式操作hive表,这次使用scala编译成jar包,提交到spark-submit首先由于是用maven来管理scala项目,所以需要增加pom.xml的配置文件,要注意scala版本要跟spark的jar包中的scala版本一致,否则编译出来的jar包会报错java.lang.BootstrapMethodError: java.lang.NoClassDefFoundEr...原创 2019-03-02 21:22:13 · 652 阅读 · 0 评论