spark
文章平均质量分 67
曾牛
成功的三个关键,坚持,坚持,再坚持
展开
-
Hive on Spark配置
1. Hive引擎简介Hive引擎包括:默认MR、tez、sparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。2. Hive on Spark配置1)兼容性说明注意:官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive原创 2022-04-04 17:12:15 · 3679 阅读 · 0 评论 -
eclipse安装Scala IDE插件后An internal error occurred during: "Computing additional info"报错解决
eclipse安装scala插件后报错,信息如下:一自动补齐就弹出 An internal error occurred during: "Computing additional info"报错具体来说是写代码时,自动补齐,然后弹窗报如下错误An internal error occurred during: “Computing additional info”.org.ecli...原创 2019-11-26 21:50:36 · 1111 阅读 · 0 评论 -
java.lang.IllegalArgumentException: requirement failed: Column features must be of type org.apache.s
lr训练模型报错:val model1 = lr.fit(training)java.lang.IllegalArgumentException: requirement failed: Column features must be of type org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 but was actually org.apa...原创 2019-04-24 11:44:49 · 2833 阅读 · 0 评论 -
spark-core学习笔记
1.spark和MapReduce比较:1)MR是批量计算框架,Spark-Core也是批量计算框架2)Spark相比MR速度快,MR作为一个job,在中间环节中结果是落地的(会经过磁盘交换),Spark计算过程中数据流转都是在内存的(减少了对HDFS的依赖)3)MR:多进程模型(缺点:每个任务启动时间长,所以不适合于低延迟的任务 优点:资源隔离,稳定性高,开发...原创 2019-03-07 21:43:55 · 179 阅读 · 0 评论 -
RDD的五大特性
原创 2019-03-07 20:58:59 · 160 阅读 · 0 评论 -
spark-streaming运行wordcount命令
spark-submit --class org.apache.spark.examples.streaming.HdfsWordCount \ --master yarn-cluster \/usr/local/src/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar\ hdfs:...原创 2019-03-07 16:43:40 · 779 阅读 · 0 评论 -
scala和spark实践wordcount
1.scala实现:数据The_Man_of_Property.txt:实现代码:结果:2.spark实现:数据:同上代码:结果:原创 2019-03-06 16:46:39 · 202 阅读 · 0 评论 -
spark实践cf(协同过滤)算法
import org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable.ArrayBufferimport scala.math._object cf { def main(args: Array[String]): Unit = { val conf = new SparkConf()...原创 2019-03-06 15:38:28 · 245 阅读 · 0 评论 -
spark-sql性能优化
原创 2019-03-08 15:00:14 · 293 阅读 · 0 评论 -
spark实现将相同用户(key)所有item列表聚合
数据:用户id,itemid,分数代码:import org.apache.spark.{SparkConf, SparkContext}object userwatchlist { def main(args: Array[String]): Unit = { val conf = new SparkConf() //conf.setMaster("local...原创 2019-03-08 14:42:15 · 2252 阅读 · 0 评论 -
spark-sql相关实践
给定数据:orders表:product表:priors表:实现以下业务需求:1.统计product被购买的数量:val productCnt = priors.groupBy("product_id").count()2..统计product 被reordered的数量(再次购买)product_id做group by(聚合),统计一下sum(re...原创 2019-03-08 14:34:52 · 401 阅读 · 0 评论 -
Spark全分布模式的安装和配置
Spark的安装模式一般分为三种:1.伪分布模式:即在一个节点上模拟一个分布式环境,master和worker共用一个节点,这种模式一般用于开发和测试Spark程序;2.全分布模式:即真正的集群模式,master和worker部署在不同的节点之上,一般至少需要3个节点(1个master和2个worker),这种模式一般用于实际的生产环境;3.HA集群模式:即高可用集群模式,一般至少需要4台机器(1...原创 2018-10-09 00:47:32 · 1088 阅读 · 0 评论 -
spark报错集锦
在虚拟机运行spark-shell命令报错:问题1:启动hadoop和spark后在终端输入spark-shell命令报错如下:解决办法:1.环境将hive中的hive-site.xml拷贝到spark下的conf目录下将/usr/local/src/apache-hive-3.1.0-bin/lib下的mysql-connector-java-5.1.46-bin.jar...原创 2018-11-09 11:22:59 · 451 阅读 · 0 评论