自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (2)
  • 收藏
  • 关注

原创 pyspark+dataframe+wordcount 版本

网上现有的wordcount一般包括:scala、Java、python版本,且为基于RDD数据格式的方法,该方法较简单,但门槛较高,若采用dataframe的方法,则结果更好理解,但查询函数的过程较为复杂,网上没有找到合适的版本,所以自己写一个,可以采用sparksql的语句进行wordcount的计算。代码如下:from pyspark.sql import SparkSessionfrom...

2018-06-06 16:52:11 878

原创 pyspark+sparksession+raise Exception("Java gateway process exited before sending the driver its port

在spark2.0之前,开启一个spark程序从设置sparkContext和sparkConf开始,从spark2.0以后,可以直接由sparkSession解决。直接引入包即可。from pyspark.sql import SparkSessionsparkSession可以有助于直接读取csv文件,且使用.read().option()可以直接获取表头,不用一个一个键入,注意同样是","作...

2018-05-23 15:50:07 1671 1

原创 pyspark javagataway 问题 Java gateway process exited before sending the driver its port number args

在读取文档等一类最基础的pyspark代码时出现了如下错误Java gateway process exited before sending the driver its port number args = ('Java gateway process exited before sending the driver its port number',) message = 'Java g...

2018-05-16 20:33:02 8095

spark graph.jar

spark graph.jar

2017-08-30

junit4.jar

junit4

2017-08-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除