Spark
文章平均质量分 66
bigdataCoding
这个作者很懒,什么都没留下…
展开
-
SparkSql 函数的使用
import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.functions._/** * */object sparkDataframe { def main(args: Array[String]原创 2016-09-12 21:23:05 · 2343 阅读 · 0 评论 -
Spark对Hbase 的封装 connector
传统方式spark写Hbase的方式为这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase;本文用SparkOnHbase基于GIT上Clouder开源出来的方法,依赖如下:<!-- https://mvnrepository.com/artifact/org.apache.hbase/hbase-spark --><dependency>原创 2017-09-05 14:22:09 · 2865 阅读 · 0 评论 -
Spark GBDT
随机森林(random forest)和GBDT都是属于集成学习(ensemble learning)的范畴。集成学习下有两个重要的策略Bagging和Boosting。 Bagging算法是这样做的:每个分类器都随机从原样本中做有放回的采样,然后分别在这些采样后的样本上训练分类器,然后再把这些分类器组合起来。简单的多数投票一般就可以。其代表算法是随机森林。Boosting的意思是这样,他通过原创 2017-11-09 16:51:40 · 1679 阅读 · 0 评论 -
Spark和HanLP结合实现分词
实现地理位置名词的分词 val spark = SparkSession .builder() .appName("Word2Vec").master("local[*]") .getOrCreate() val df=spark.createDataFrame(Seq(("1","湖北武汉市汉口北大道88号"), ("2","成都青羊区清原创 2017-12-29 17:09:06 · 1818 阅读 · 0 评论 -
Spark机器学习之-实时聚类算法调用
Spark MLIB中的Kmenas聚类算法,数据通过SparkStreaming 实时拉取kafka中的数据,并调用已经训练好的聚类模型;根据读取的数据实时的进行分类package com.demo.cn.streamingimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.commo...原创 2018-03-07 15:39:05 · 1705 阅读 · 1 评论 -
Spark机器学习之--逻辑回归
Spark 利用逻辑回归做申请评分卡,上干货 val spark=SparkSession.builder().appName("LRTest").master("local[*]").getOrCreate() val sc=spark.sparkContext //隐式转换 val colArrayName= Array("affairs", "gender", ...原创 2018-03-08 20:35:54 · 1024 阅读 · 0 评论 -
SparkStreaming 管理offset 存储到Hbase中
package com.demo.cn.streamingimport kafka.utils.ZkUtilsimport org.apache.hadoop.hbase.filter.PrefixFilterimport org.apache.hadoop.hbase.util.Bytesimport org.apache.hadoop.hbase.{HBaseConfiguratio...原创 2018-04-18 16:00:49 · 743 阅读 · 0 评论 -
Spark NLP实现本文挖掘
本机运用的技术栈为NLP(Word2Vec)关于NLP的相关理论请提前梳理清楚Spark mlib,rdd,dataframe,graph(顶点,边,连通图等基本概念)Spark 2.2.0,JDK 1.8.0 ,Scala 2.1.X如下思路图:1.如下创建一个DataFrame import spark.implicits._ val documentDF = spar...原创 2018-06-06 17:24:02 · 2007 阅读 · 1 评论 -
Spark 闭包与序列化(json4s.jackson)
Spark的官方文档再三强调那些将要作用到RDD上的操作,不管它们是一个函数还是一段代码片段,它们都是“闭包”,Spark会把这个闭包分发到各个worker节点上去执行,这里涉及到了一个容易被忽视的问题:闭包的“序列化”。显然,闭包是有状态的,这主要是指它牵涉到的那些自由变量以及自由变量依赖到的其他变量,所以,在将一个简单的函数或者一段代码片段(就是闭包)传递给类似RDD.map这样的操作前,...原创 2018-08-02 10:15:00 · 1597 阅读 · 0 评论 -
spark优化参数调整思路
spark参数调整 1. 减少num-executors,调大executor-memory,这样的目的是希望Executor有足够的内存可以使用 2. Cache的级别适当调成MEMORY_ONLY_SER和DISK_ONLY 3. 修改逻辑,避免shuffle;shuffle是stage的区分标准 4. 参数设置 spark.sql.shuffle.partitions spark.原创 2017-03-11 16:01:52 · 815 阅读 · 0 评论 -
Spark SQL内置函数的使用Spark SQL执行计划总结
个人感觉Spark SQL的优势在于UDF和DataFrame(RDD的封装,由于RDD是可以是任意类型,因此可以封装一个对象在RDD里面,spark2.0以后对DataSet做了优化,由于DataFrame是弱类型的判断,DataSet是静态类型的在数据的优化和性能上应该有更大的提升)本文的操作spark 1.6.1内置函数 需要倒入 importorg.apache.spark.s原创 2017-01-18 16:46:33 · 7679 阅读 · 0 评论 -
Spark JobServer 安装使用
1.本文主要介绍spark job sever的调度2.关于spark job sever的安装可以参考Github的使用原创 2016-08-31 14:16:14 · 3359 阅读 · 0 评论 -
spark 支持native redis Api(精华)
spark 对redis 原生对支持,spark和Redis交互操作原创 2016-09-24 22:43:41 · 1438 阅读 · 0 评论 -
spark Reparation和Coalesce 区别
1.repartition()方法就是coalesce()方法shuffle为true的情况2.coalesce 在spark SQL function中有类似 oracle中nvl2点作用原创 2016-10-04 13:40:54 · 3231 阅读 · 0 评论 -
SparkSQL 实现UDF的两种方式
import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.functions._/** * Created by shilong on 16/9/12. */object sparkDataframe {原创 2016-09-12 20:26:59 · 4535 阅读 · 0 评论 -
Sparktreaming 例子
SQLContextSingleton 单利原创 2016-10-23 15:53:25 · 943 阅读 · 0 评论 -
spark RDD写入 Hbase
spark 对hbase 的写入rdd.saveAsHadoopDataset原创 2016-12-15 22:29:28 · 3805 阅读 · 0 评论 -
Spark 检查点
一般是在具有容错能力,高可靠的文件系统上(比如HDFS, S3等)设置一个检查点路径,用于保存检查点数据。设置检查点可以在应用程序中使用streamingContext.checkpoint(checkpointDirectory)来指定路径。 如果想要应用程序在失败重启时使用到检查点存储的元数据信息,需要应用程序具有以下两个特性,需要使用StreamingContext.getOrCre转载 2016-12-26 11:31:26 · 1746 阅读 · 0 评论 -
Spark DataFrame中基于List的排序UDF
DataFrame中支持的类型如 Struct此类型我们是用对象进行的封装,但是要对strcut里的数据进行排序,个人想到的办法还是把struct转位Json,然后反解析Jsonsqlcontext.udf.register("stuSort", (stuList: Seq[String]) => { val rs = Option(conponList) match { ca原创 2016-12-20 09:44:34 · 1642 阅读 · 0 评论 -
Spark系列--Mlib(1)
ML Pipelines(ML管道)Pipelines的主要概念MLlib 将机器学习算法的API标准化,以便将多种算法更容易地组合成单个 Pipeline (管道)或者工作流。本节介绍Pipelines API 的关键概念,其中 Pipeline(管道)的概念主要是受到 scikit-learn 项目的启发.DataFrame(数据模型):ML API 将从Spark SQL查出来的...原创 2018-09-03 10:42:18 · 924 阅读 · 0 评论