Spark
腾飞的大象
将来的你定会感激现在努力的自己
展开
-
spark 1.6.0 源码编译及遇到的问题
文章目录1.环境准备1.1 安装[jdk](https://www.oracle.com/java/technologies/javase-downloads.html)1.2 安装[scala](https://www.scala-lang.org/download/)1.3 安装git,[git下载地址](https://git-scm.com/downloads),安装后可以使用git bash 编译spark 源代码1.4 下载spark 源码,可以去[github地址](https://githu原创 2020-05-20 11:25:06 · 916 阅读 · 1 评论 -
spark 2.4.x 使用json4s java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/
完整错误信息如下:20/05/11 21:07:50 ERROR [Driver] ApplicationMaster: User class threw exception: java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/JsonInput;Z)Lorg/json4s/JsonAST$JValue;java.lang.NoSuchMethodError: org.json4s.jackson原创 2020-05-11 21:32:58 · 2261 阅读 · 0 评论 -
Spark ML 特征工程之 One-Hot Encoding
1.什么是One-Hot Encoding2.One-Hot Encoding在Spark中的应用2.1 数据集预览2.2 加载数据集2.3 使用OneHotEncoder处理数据集2.4 使用VectorAssembler合并所有特征为单个向量2.5 以Pipeline的形式运行各个PipelineStage2.6 训练和评估模型1.什么是One-Ho...原创 2018-08-10 17:09:48 · 8532 阅读 · 6 评论 -
SparkSQL 中group by、grouping sets、rollup和cube方法详解
      在平时的工作中,经常有按照不同维度筛选和统计数据的需求。拿视频会员订单数据来说吧,运营人员要查看深圳市的成功下单数或则深圳市某一种产品的成功下单数或者某一种产品的所有成功下单数时,每天的订单数又很大,现查的话按照不同的维度去查询又很慢。此时本篇文章或许会帮助到你。group by:主要用来对查询的结果进行分组,相同组合的分组条件在结果集中只显示一行记录...原创 2018-12-04 19:41:34 · 11619 阅读 · 0 评论 -
SparkSQL DataFrame与MySQL增删改查那些事儿
在使用星火中通过各种算子计算完后各种指标后,一般都需要将计算好的结果数据存放到关系型数据库,比如MySQL和PostgreSQL等,随后配置到展示平台进行展现,花花绿绿的图表就生成了。下面我讲解一下,在Spark中如何通过c3p0连接池的方式对MySQL进行增加改查(CRUD),增加(创建),读取查询(Retrieve),更新(更新)和删除(删除)1.Create(增加) case clas...原创 2018-11-27 19:34:21 · 4375 阅读 · 0 评论