spark
渭水飞熊
这个作者很懒,什么都没留下…
展开
-
Spark task not serializable错误的分析和处理
在编写代码Spark应用时出现以上的问题,最后发现是因为Dataset<Row>的foreach方法中传入的参数ForeachFunction<Row>引起的,代码如下: projectDataSourceDFFromMySQL.foreach(new ForeachFunction<Row>() { private static final long serialV原创 2017-09-01 22:05:36 · 16067 阅读 · 0 评论 -
基于java的sparkSQL从mysql中读取数据
发现网上基于java的写法很少,这里就做个记录,两种从mysql中读取数据的方法。第一种: String sql = " (select u.user_name_zh, r.organ_name from user_group_organ r, user as u " + "where r.user_id=u.user_id limit 1,原创 2017-09-02 21:46:04 · 7827 阅读 · 4 评论 -
Spark的Application和依赖的公共jar包单独存放
在Spark做大数据分析的时候,我们需要将依赖的第三方jar包或者我们自己写的公共包单独放在不同的地方,这样可以保持有一份公共的jar包库,当有新的开发任务或者要部署到其其他服务器的时候,只要把这些jar包拷贝过去就行。比如我在我的服务器上建立两个目录,一个是commonlib,一个是driverlib,我们可以将依赖的第三方jar包,比如mysql的驱动jar包放在commonlib文件夹下,可原创 2017-09-12 16:47:19 · 1071 阅读 · 0 评论 -
“Service 'Driver' could not bind on port”错误的解决方法
在deploy model为“cluster”时,出现这个错误,按照网上的各种方式都是了,比如以下方式:1、修改export SPARK_LOCAL_IP=127.0.0.1;2、保证SPARK_LOCAL_IP为本机真实IP;3、关闭防火墙和SELINUX4、关闭IPV6等等都不行,最后同事在spark-evn.sh中,通过以下设置方式问题解决了。export SPARK_LOCAL_原创 2017-09-11 21:37:03 · 5775 阅读 · 0 评论