Spark
文章平均质量分 73
轩瑕谢兰
慕周力
展开
-
SparkSQL获取dataframe(Java)
文章目录写在前面正文写在后面写在前面使用SparkSQL读取数据库数据并返回dataframe,感觉都要被各种示例写烂了,本文大体上是没有新意的,只不过加了些细节,对需要的人的而言还是比较重要的。此外,示例方法均是使用Java编写,为什么不用Scala呢,实在是语法糖对于我这样的水平最多只到泛型为止的人而言,过于抽象了,过了一个月就不太记得之前写的是啥了,还是习惯明确对象。正文介绍下几块...原创 2019-11-01 11:50:12 · 957 阅读 · 0 评论 -
CentOS中Python in worker has different version x.x than that in driver x.x异常
其实这个异常百度一下,大部分都是添加环境变量,修改conf/spark-env.sh文件,主要就是加入或修改 PYSPARK_PYTHON 和PYSPARK_DRIVER_PYTHON这两个环境变量,这都是老生常谈的问题了,在此我就不赘述了。但我最近在使用spark远程master结点进行编程的时候,发现无论怎么做这个异常都一直存在,颇为苦恼。首先,要明确的一点就是你的操作系统中一定存在两个版本的...原创 2018-04-26 14:18:23 · 852 阅读 · 1 评论 -
windows系统作为driver远程提交任务给spark standalone集群demo
其实这个是上篇文章的升级版。先上demo代码吧,其中要改的地方还挺多的,此外,如果不将模型持久化的话,烦请自行修改相关代码(demo比较简单,我就不阐释他是干什么的了):from pyspark.ml.feature import Word2Vecfrom pyspark.sql import SparkSessionfrom pyspark import SparkConffrom pys...原创 2018-05-11 16:17:41 · 1479 阅读 · 0 评论 -
HBase批量插入数据
文章目录写在前面关键点实现代码尾记写在前面其实下文内容更适合在Spark中作为任务去执行,为了讲解,我先单独拎出来了,使用场景的话其实也很明显,就是大规模将数据写入HBase中。关键点大数据组件服务不可用(如断点、磁盘爆炸等)暂时不是本文内容所考虑的内容。首先,使用HBase1.0以上版本才支持的BufferedMutator,对HBase执行异步写入操作,使用mutate(Li...原创 2019-08-06 14:18:40 · 7111 阅读 · 3 评论