spark
wu大熊
chown -R bear flume
展开
-
spark-streaming
spark-streaming概述特点DStreamWordcountwordCount解析Dstream的创建概述SparkStreaming用于流式数据的处理,支持很多数据源和spark基于rdd的概念类似,sparkStreaming使用离散化流(discretized stream)作为抽象表示,叫DStream。Dstream是随着时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStream是由这些RDD所组成的序列。特点易用、容错、架构如下DStr原创 2020-08-08 16:58:09 · 114 阅读 · 0 评论 -
Spark-windows安装与实践
Spark-Windows安装与实践安装开发环境试一下wordcount程序有时候懒得开虚拟机,windows也凑合安装开发环境1.安装spark这里不再赘述,http://spark.apache.org/downloads.html下载spark-xx-bin-hadoop即可,配置路径环境变量,路径记得加上bin然后spark的安装文件夹做如下处理第一步,去掉只读、隐藏第二步,勾选完全控制不然spark-shell启动会然后赋权PS I:\develop_software\h原创 2020-08-08 16:33:17 · 285 阅读 · 0 评论 -
spark-sparkSQL
SparkSQL概述特点什么是DataFrame什么是DataSetsparksql编程起始点Dataframe创建创建sqlDataSetDataFrame、DataSet和RDDscala案例概述SparkSQL是spark用来处理结构化数据的一个模块,它提供了dataframe和dataset两个编程抽象,并且作为分布式sql查询引擎的作用。hive是将hive sql转化为mapreduce然后提交到集群执行,大大简化了编写mapreduce的复杂性,由于mapreduce计算模型效率比较慢,原创 2020-08-08 16:18:48 · 300 阅读 · 0 评论