spark
笛香幽谷(欧锐)
佛经所到之处,即为有佛
展开
-
Spark 添加复用JDBC Schema功能
用户需要阅读大量相同的数据库表,比如相同schema的表有1000张(比如对mysql进行分表分库)需要全读,每次建立dataframe的时候需要通过jdbcrelation去读每一张表的schema,消耗了大量时间。本文对提出一种修改办法,如果用户知道表的sechema相同,可以使用sechema复用。原创 2015-11-18 11:19:29 · 2261 阅读 · 0 评论 -
Spark SQL 操作Apache ignite 代码实战
package com.zhw.bigdata.ignite;import org.apache.ignite.spark.IgniteDataFrameSettings;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.SaveMode;im...原创 2018-10-29 19:22:59 · 553 阅读 · 0 评论 -
使用Spark mlib Kmean算法分析网络数据(Hacker attack)
package apache.spark.mlib.rdd.kmeanclusteringimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.feature.{StandardScaler, VectorAssembler}import org.apache.spark.sql.{Row, S...原创 2018-08-21 09:47:23 · 915 阅读 · 0 评论 -
使用Spark Mlib K-Means算法分析网络攻击数据
package apache.spark.mlib.rdd.kmeanclusteringimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.feature.{StandardScaler, VectorAssembler}import org.apache.spark.sql.{Row, Spar...原创 2018-08-20 21:58:42 · 747 阅读 · 0 评论 -
spark2.1.0 on yarn with CDH5.8.0 安装实战
Spark 版本发布很快,CDH集成最新Spark版本需要一定时间,并且CDH 集成的Spark版本不支持Spark-sql。本文档的目的在目前cdh平台集成最新spark,方便测试和使用最新功能。原创 2017-03-30 17:36:53 · 5612 阅读 · 0 评论 -
CDH Gateway docker实战
将CDH gateway 安装到docker里面。原创 2017-01-24 11:45:13 · 4043 阅读 · 1 评论 -
Spark 1.6.3 thriftServer 支持 ldap 配置
hive-site.xml配置[idc_xudalei1@CDNDC-213128087 conf]$ cat hive-site.xml <?xml version="1.0" encoding="UTF-8"?><!--Autogenerated by Cloudera Manager--><configuration> <property> <name>hive.metas原创 2016-11-11 10:48:41 · 2130 阅读 · 0 评论 -
spark 源码里面的sealed trait 存在原因
spark 源码里面的sealed trait 存在原因原创 2016-04-15 16:28:10 · 1010 阅读 · 0 评论 -
Spark 1.5.2 on yarn升级问题总结
Spark 1.4.0 standlone升级到Spark 1.5.2 on yarn问题总结原创 2016-04-15 15:33:39 · 5745 阅读 · 0 评论 -
自定义Spark application 监听器
自定义Spark listener 监听任务执行状态。原创 2016-04-15 11:48:46 · 6056 阅读 · 4 评论 -
spark1.5.2.1小版本制作并上传mave local repo
1、修改所有工程的版本号1.5.2修改为1.5.2.12、修改所有工程的版本号修改 ../spark-1.5.2/pom.xml 文件,添加deploy 插件 releases Suning Release Repository http://maven.cnsuning.原创 2016-04-13 14:36:13 · 434 阅读 · 0 评论 -
Scala future 回调函数方法
结果输出:[info] Running org.learningconcurrency.ch4.FuturesCallbacksrun-main-0: callbacks installed, continuing with other work[success] Total time: 4 s, completed 2016-3-20 9:21:34> ForkJoinPool-1-w翻译 2016-03-20 09:28:14 · 3132 阅读 · 0 评论 -
Spark1.5.2 on yarn fair scheduler 配置
1.fair scheduler 配置 FAIR 1 2 FIFO 2 3 FAIR 2 3 FAIR 1 3 2.代码提交mport org.apache.spark.SparkConfimport org.apache.sp原创 2015-11-19 15:20:26 · 1510 阅读 · 0 评论 -
Spark1.5.2 on Hadoop2.4.0 安装配置
一、 前言 本文简单介绍yarn安装,主要介绍spark1.5.2on yarn模式安装,仅供参考。 二、 yarn配置1. yarne.xmlyarne.xml需要添加的配置如下: yarn.nodemanager.aux-services mapreduce_原创 2015-11-18 10:38:21 · 1344 阅读 · 0 评论 -
Spark standlone driver on cluster 用户权限问题
Spark standlone 模式下面driver 提交到cluster,application 用户变成了spark 部署环境用户,这样会带来两个问题:a) 无法知道那个用户提交的任务;b) spark权限问题无法管理,比如读取Hive、HBase、HDFS数据的权限问题;本文提出一种简单的修改方法,让Spark standlone driver on cluster 模型下面读取数据权限问题可以解决。原创 2015-11-18 11:32:46 · 2937 阅读 · 0 评论 -
Apache Spark 读写Apache ignite 代码实战
package com.zhw.bigdata.ignite;import org.apache.ignite.spark.IgniteDataFrameSettings;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.SaveMode;im...原创 2018-11-21 14:09:31 · 1072 阅读 · 0 评论