![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Nougats
这个作者很懒,什么都没留下…
展开
-
Spark ML机器学习算法svm,als,线性回归,逻辑回归简单试验
线性回归导入训练集数据,将其解析为带label的RDD,然后使用LinearRegressionWithSGD 建立一个简单的线性模型预测label的值,最后计算了均方差来评估预测值与实际值的吻合度object LinearRegressionModelDemo { def main(args: Array[String]): Unit = {原创 2017-07-09 22:56:31 · 1661 阅读 · 0 评论 -
Spark 报错scala.reflect.api.JavaUniverse.runtimeMirror
spark提交任务报错User class threw exception: java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)Lscala/reflect/api/JavaUniverse$JavaMirror;任务中引入的spark对应的Scala版本原创 2017-09-03 14:49:21 · 4575 阅读 · 0 评论 -
spark 2.1.1访问hive2.3.0
添加jdbc依赖 我试验了6版本和8版本 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.43</version> </dependency>添加spark-hive支持依赖 <depende原创 2017-08-22 14:03:20 · 4563 阅读 · 0 评论 -
Spark udf,udaf
udfdef filterTdWithOp(operator: String): Boolean = { val x = ".*中国联通.*" val y = ".*CHN-UNICOM.*" val z = ".*China Unicom.*" if (operator!=null && operator.matches(x + "|" + y + "|" + z)原创 2017-08-27 21:35:44 · 1032 阅读 · 0 评论 -
Spark 修改整列数据类型+写入数据到HDFS
Spark 修改dataset整列数据类型import org.apache.spark.sql.types.IntegerTypegeoans.select(geoans.col("pointNum").cast(IntegerType).as("lat"))写入数据到HDFSa.repartition(3).write.parquet("hdfs://master:9000"+"/data/30原创 2017-08-27 21:43:31 · 4881 阅读 · 0 评论 -
Spark jobServer搭建+提交作业执行
安装scala根据spark版本,在官网下载对应的unix版tar文件 配置环境变量export PATH="$PATH:/usr/scala-2.10.6/bin"立即生效命令source /etc/profile部署sbt配置环境变量export PATH="$PATH:/usr/sbt/"建立启动sbt的脚本文件 在sbt目录下,创建sbt文件#!/bin/bashSBT_OPTS="-原创 2017-07-18 22:53:50 · 2576 阅读 · 0 评论 -
Spark RDD算子/SparkSQL分别实现对电影数据集的简单数据分析
数据集:MovieLens 1M Dataset users.dat UserID::Gender::Age::Occupation::Zip-code movies.dat MovieID::Title::Genres ratings.dat UserID::MovieID::Rating::Timestamp 1.年龄段在“18-24”的男性年轻人,最喜欢看哪10部原创 2017-06-22 00:01:16 · 2656 阅读 · 0 评论 -
Spark RDD进行艺术家数据集清洗
1 artist_data.txt 文件中包含艺术家的ID 和名字,它们用制表符“\t”分割,但是尝试简单的把文件解析成二元组(Int, String) 会出错,用spark transformation 算子简单处理数据,过滤掉会产生异常的数据,返回元组(Int, String),并在结果RDD 中查找到ID 为2093760艺术家的名字。原始数据的模样关键代码v原创 2017-06-14 23:38:28 · 2029 阅读 · 0 评论 -
Spark Streaming接收kafka数据,输出到HBase
需求Kafka + SparkStreaming + SparkSQL + HBase 输出TOP5的排名结果 排名作为Rowkey,word和count作为Column实现原创 2017-06-24 15:55:52 · 15814 阅读 · 7 评论 -
Spark local/standalone/yarn/远程调试-运行WordCount
local直接启动spark-shell./spark-shell --master local[*]编写scala代码sc.textFile("/input/file01.txt")res0.cache()res0.countval wd=res0.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)wd.collect.foreach(pr原创 2017-06-11 19:36:36 · 1526 阅读 · 0 评论 -
Spark ML随机森林
0 原数据集的模样No,year,month,day,hour,pm,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir1,2010,1,1,0,NaN,-21.0,-11.0,1021.0,NW,1.79,0.0,0.02,2010,1,1,1,NaN,-21,-12,1020,NW,4.92,0,03,2010,1,1,2,NaN,-21,-11,1019,NW,6.71原创 2017-07-01 13:22:58 · 3573 阅读 · 1 评论 -
spark dataframe 将一列展开,该列所有值都变成新列
The original dataframe需求:hour代表一天的24小时,现在要将hour列展开,每一个小时都作为一个列实现:val pivots = beijingGeoHourPopAfterDrop.groupBy("geoHash").pivot("hour").sum("countGeoPerHour").na.fill(0)并且统计了对应的countGeoPerHour的和,如果有些原创 2017-09-28 15:43:32 · 4562 阅读 · 0 评论