spark学习
spark学习
优惠券已抵扣
余额抵扣
还需支付
¥39.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
MachineLP
成功收获成果,失败收获智慧,投入收获快乐!
展开
-
LP love tensorflow & spark
昨天看到一片文章激发起了我很多兴趣点,文章的题目是 Spark Love Tensorflow,心想何止如此,LPlove tensorflow & spark,之前谜之Love Tensorflow,花了三年的时候把它收入麾下,19年开始接触spark,同样激发出不少火花,同时学习了scala语言(人生太短,python吧),也想花二到三年的时间将spark拿下。感兴趣的可以看看我...原创 2020-03-20 09:44:48 · 585 阅读 · 0 评论 -
scala-sparkML学习笔记:Scala并发编程实战:Executor线程池
原文地址:https://liam-blog.ml/2019/09/22/Scala-Concurrency-Executor/创建线程是一个重量级操作,因为需要调用操作系统内核的API,所以最好不要频繁的创建和销毁线程,为了能够复用创建的线程,常用的办法的就是创建线程池。Executorjava.util.concurren包中提供了若干接口和类来实现线程池,最常用的有Executo...原创 2019-11-15 15:07:00 · 581 阅读 · 0 评论 -
scala-sparkML学习笔记:迁移文件/ 通过 .!! 隐式方法直接执行系统命令
Scala作为script使用也是非常的方便。原文地址:https://www.yangbajing.me/2019/03/22/scala实战:迁移文件/还可以参考:Scala-通过ProcessBuilder执行hive命令:https://blog.csdn.net/qq_16038125/article/details/86682405浅析ProcessBuilder:http...原创 2019-11-13 17:50:36 · 239 阅读 · 0 评论 -
scala-sparkML学习笔记:struct type tinyint size int indices array int values array double type
错误类型:CSV data source does not support struct<type:tinyint,size:int,indices:array<int>,values:array<double>> data type.predictPredict.select("user_id", "probability", "label")...原创 2019-10-29 22:14:20 · 2446 阅读 · 0 评论 -
scala-sparkML学习笔记:xgboost进行分布式训练
java/scala生成jar一般采用有两种sbt和maven,本人介绍通过maven生成jar的方式,同时可以查看git:https://github.com/MachineLP/Spark-/tree/master/scala-xgboost。xgboostSparkMLlibPipeline.scala代码如下:(注意运行时要按照特征目录格式组织:src/main/scala/ml/d...原创 2019-08-29 20:53:55 · 3913 阅读 · 0 评论 -
scala-sparkML学习笔记:serializable custom transformer with spark-scala
有时候在构建pipeline时,sparkML中有些功能不存在需要自己定义,可以参考这个样例:(src/main/scala/ml/dmlc/xgboost4j/scala/example/spark/OwnMLlibPipeline.scala)/*------------------------------------------------- Description : ...原创 2019-08-29 20:58:59 · 409 阅读 · 0 评论 -
scala-sparkML学习笔记:Execption in thread "main" java.lang.AbstractMethodError: ml.dmlc.xgboost4j.scala
在通过:spark-2.4.3-bin-hadoop2.7/bin/spark-submit --class ml.dmlc.xgboost4j.scala.example.spark.SparkMLlibPipeline --jars /***/scala_workSpace/test/xgboost4j-example_2.11-1.0.0-jar-with-dependencies.j...原创 2019-08-29 21:09:08 · 793 阅读 · 0 评论 -
scala-sparkML学习笔记:模型评估
scala-sparkML中模型评估标准比较全面, 基本不用像pyspark-ml学习笔记:模型评估使用其他方法。// 二分类下的模型评估。// Precision by thresholdval precision = metrics.precisionByThresholdprecision.foreach { case (t, p) => println(s"Thres...原创 2019-08-29 21:36:31 · 1272 阅读 · 0 评论 -
scala-sparkML学习笔记:scala解析json文件
在搭建一些工程项目时,往往需要有配置文件,而配置文件很多是基于json格式组织的。这里可直接看代码:import scala.util.parsing.json.JSON._import scala.io.Sourceobject XMLHelloWorld { def main(args: Array[String]): Unit = { def regJson...原创 2019-08-30 18:01:44 · 1397 阅读 · 0 评论 -
spark学习笔记:spark踩坑记
spark系列:1.spark杂记:Spark Basics2.spark杂记:Execution plans, Lazy Evaluation, and caching3.spark杂记:Spark Basics 2:Chaining,counting,transformations4.spark杂记:Word Count5.spark杂记:Operation...原创 2019-09-18 14:30:30 · 280 阅读 · 0 评论 -
spark学习笔记:spark sql
spark-env.sh环境配置:(添加hive支持)export JAVA_HOME=/usr/lib/jdk1.8.0_171export SPARK_HISTORY_OPTS="-Dspark.history.kerberos.enabled=false \-Dspark.history.kerberos.principal= \-Dspark.history.kerber...原创 2019-09-18 14:42:34 · 223 阅读 · 0 评论 -
pyspark-ml学习笔记:模型评估
问题是这样的,如果我们想基于pyspark开发一个分布式机器训练平台,那么肯定需要对模型进行评估,而pyspark本身自带模型评估的api很少,想进行扩展的话有几种方案:(1)使用udf自行编写代码进行扩展。(2)使用现有的,像sklearn中的api。(不同框架的之间的切换往往需要转换数据结构)例子如下所示:'''模型评估模块:· pyspark api· sklearn...原创 2019-08-21 16:33:09 · 2996 阅读 · 0 评论 -
pyspark-ml学习笔记:一些比较不错的资料
子雨大数据之Spark入门教程(Python版): http://dblab.xmu.edu.cn/blog/1709-2/子雨大数据之Spark入门教程(Scala版): http://dblab.xmu.edu.cn/blog/spark/https://blog.csdn.net/FlySky1991PySpark pandas udf: https://www.imooc...原创 2019-08-13 21:26:19 · 1574 阅读 · 1 评论 -
spark杂记:Execution plans, Lazy Evaluation, and caching
Spark 学习笔记可以follow这里:https://github.com/MachineLP/Spark-Task:calculate the sum of squares :The standard (orbusy) way to do this isCalculate the square of each element. Sum the squares.This...原创 2019-03-19 22:13:50 · 506 阅读 · 0 评论 -
spark杂记:Operations on (key,val) RDDs
Spark 学习笔记可以follow这里:https://github.com/MachineLP/Spark-Types of spark operationsThere are Three types of operations on RDDs: Transformations, Actions and Shuffles.The most expensive operations ...原创 2019-03-24 18:26:52 · 323 阅读 · 0 评论 -
spark杂记:Spark Basics 2:Chaining,counting,transformations
Spark 学习笔记可以follow这里:https://github.com/MachineLP/Spark-ChainingWe canchaintransformations and aaction to create a computationpipelineSuppose we want to compute the sum of the squares:whe...原创 2019-03-21 22:39:37 · 281 阅读 · 0 评论 -
spark杂记:Word Count
Spark 学习笔记可以follow这里:https://github.com/MachineLP/Spark-Word CountCounting the number of occurances of words in a text is a popular first exercise using map-reduce.The TaskInput:A text file c...原创 2019-03-21 23:05:29 · 387 阅读 · 0 评论 -
spark杂记:movie recommendation using ALS
Spark 学习笔记可以follow这里:https://github.com/MachineLP/Spark-数据下载:https://grouplens.org/datasets/movielens/latest/ALS(Alternating Least Squares)算法是基于矩阵分解的协同过滤算法中的一种,它已经集成到Spark的Mllib库中,使用起来比较方便。代码如下:...原创 2019-04-02 22:12:07 · 410 阅读 · 0 评论 -
pyspark-ml学习笔记:LogisticRegression
具体查看下面代码及其注释:数据可以查看github:https://github.com/MachineLP/Spark-/tree/master/pyspark-mlimport osimport sys#下面这些目录都是你自己机器的Spark安装目录和Java安装目录os.environ['SPARK_HOME'] = "/Users/***/spark-2.4.3-b...原创 2019-07-19 17:13:43 · 1396 阅读 · 0 评论 -
SQL必知必会
SQL必知必会学习总结:原创 2019-08-06 09:40:17 · 219 阅读 · 0 评论 -
pyspark-ml学习笔记:如何在pyspark ml管道中添加自己的函数作为custom stage?
问题是这样的,有时候spark ml pipeline中的函数不够用,或者是我们自己定义的一些数据预处理的函数,这时候应该怎么扩展呢? 扩展后保持和pipeline相同的节奏,可以保存加载然后transform。经过搜索有答案了,问题:How to add my own function as a custom stage in a ML pyspark Pipeline?可以参考:(...原创 2019-08-13 20:29:03 · 1468 阅读 · 0 评论 -
pyspark-ml学习笔记:pyspark下使用xgboost进行分布式训练
问题是这样的,如果我们想基于pyspark开发一个分布式机器训练平台,而xgboost是不可或缺的模型,但是pyspark ml中没有对应的API,这时候我们需要想办法解决它。还可以参考:https://github.com/MachineLP/Spark-/tree/master/pyspark-xgboost测试代码: ((pyspark使用可以参考这个:https://blog....原创 2019-08-13 20:49:01 · 8723 阅读 · 4 评论 -
pyspark-ml学习笔记:逻辑回归、GBDT、xgboost参数介绍
逻辑回归、GBDT可以参考pyspark开发文档:http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.classification.LogisticRegression。xgboost查看:https://xgboost.ai。下面只列出分类是的参数介绍:(对于回归时的自行查看)逻辑回归...原创 2019-08-13 21:18:21 · 3383 阅读 · 0 评论 -
spark杂记:Spark Basics
Spark 学习笔记可以follow这里:https://github.com/MachineLP/Spark-下面来看几个问题,下面将关注几个问题进行阐述:Mac下安装pyspark spark相关基础知识1、Mac下安装pyspark可以参考:Big Data Analytics using Spark这个课程:https://courses.edx.org/courses/c...原创 2019-02-20 22:03:07 · 2625 阅读 · 0 评论