![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
想做架构师
这个作者很懒,什么都没留下…
展开
-
Spark WordCount
1.lamabda编写spark package cn.edu360.spark; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api....原创 2018-10-01 21:22:59 · 184 阅读 · 0 评论 -
Spark TopN
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://原创 2018-10-04 13:00:38 · 412 阅读 · 0 评论 -
Spark 序列化问题
spark中在driver端实例化的类必须继承Serializable,而executor端的类没有此要求(driver端需要通过网络发到executor中)。 但在excuter中进行实例化会造成内存浪费(一个task实例化一次)。 解决1:将类继承接口写在driver端中。 ( 有不能实现序列化的类) 解决2:写成Object类型,在driver端获取 ,在execut...原创 2018-10-08 15:15:30 · 546 阅读 · 0 评论 -
SparkSQL 1.x写法
1.创建SparkContext 2.创建SQLContext 3.创建RDD 4.创建一个类,并定义类的成员变量 5.整理数据并关联class 6.将RDD转换成DataFrame(导入隐式转换) 7.将DataFrame注册成临时表 8.书写SQL(Transformation) 9.执行Action package cn.edu360.day6 import org.apache.sp...原创 2018-10-08 16:16:21 · 209 阅读 · 0 评论 -
SparkSQL WordCount
import org.apache.spark.sql import org.apache.spark.sql.{Dataset, SparkSession} object SparkSQL2 { //常规写法 // def main(args: Array[String]): Unit = { // val spark = SparkSession.builder().app...原创 2018-10-08 17:29:37 · 1678 阅读 · 0 评论 -
Spark ip归属地查询
sql查询方式 import org.apache.spark.sql.SparkSession object IPLocationSQL { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("ipSql").master("local[*]").getOrCre...原创 2018-10-09 09:41:07 · 484 阅读 · 0 评论 -
Spark 几何平均数 自定义函数UDAF
package cn.edu360.day7 import java.lang.Long import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction} import org.apache.spark.sql.types.{StructField, _} impo...原创 2018-10-09 10:03:42 · 285 阅读 · 0 评论 -
Spark 操作jdbc csv json parquet格式文件
1.jdbc文件以及保存到各种格式 package cn.edu360.day7 import java.util.Properties import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession} /** * Created by ls on 2018/10/1. */ object JdbcDataSo...原创 2018-10-09 10:39:07 · 454 阅读 · 0 评论