![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 78
janggeumkk
这个作者很懒,什么都没留下…
展开
-
Spark-01
并行 ------------- 集群计算。 并行计算。 并发 ------------- 并发执行。 Spark ------------------------ Lightning-fast cluster computing。 快如闪电的集群计算。 大规模快速通用的计算引擎。 速度: 比hadoop 100x,磁盘计算快10x...转载 2018-08-02 17:31:33 · 125 阅读 · 0 评论 -
Spark-11
spark集群部署模式 ----------------- 1.local 本地模式 2.standalone 独立 启动spark集群。 master worker 3.yarn 不需要启动spark集群。 Resourcemanager.作为spark的c...转载 2018-08-03 15:20:29 · 182 阅读 · 0 评论 -
Spark-10
Spark集群部署模式 --------------- 1.local 2.standalone 3.mesos 4.yarn Spark闭包处理 --------------------- RDD,resilient distributed dataset,弹性(容错)分布式数据集。 分区列表,function,dep Option(分区类, P...转载 2018-08-03 15:19:20 · 161 阅读 · 0 评论 -
Spark-09
r = urllib.request.urlopen() data = r.read() //bytes r.close(); f = open(,'wb') f.write(data); f.close(); pattern = "<a\s*href="([...])">" ; re.finditer() python + hbase ------------------ ...转载 2018-08-03 15:18:42 · 119 阅读 · 0 评论 -
Spark-08
python ------------ 脚本语句。 /usr/bin/python //2.7.5 使用缩进格式 --------------- 数据结构 ------------- 1.list,类似于Array,可变 [1,2,3,4] 2.tuple,元组,不可变 t = (1,2,3,2,4) ...转载 2018-08-03 15:17:26 · 86 阅读 · 0 评论 -
Spark-07
机器学习 ------------ 监督学习: //具有训练数据 //分类,预测,classify //朴素贝叶斯分类器。概率的问题。 //生成函数。 非监督学习 //没有具有训练数据 line regress -----...转载 2018-08-03 15:16:50 · 178 阅读 · 0 评论 -
Spark-06
Spark stream ------------- [DStream]: 离散流,连续的RDD序列。准实时计算。batch,秒. DStream.map() DStream.updateStateByKey(); batch interval :批次的间隔. windows length :窗口长度,跨批次。是批次的整数倍。 slid...转载 2018-08-03 15:15:59 · 108 阅读 · 0 评论 -
Spark-05
Spark SQL -------------- 使用类似SQL方式访问hadoop,实现MR计算。RDD df = sc.createDataFrame(rdd); DataSet<Row> === DataFrame ==> //类似于table操作。 SparkSQL java ----------------- public cla...转载 2018-08-02 18:00:59 · 94 阅读 · 0 评论 -
Spark-04
核心类 ------------- Stage子类 ShuffleMapStage ResultStage Task: ResultTask ShuffleMapTask ActiveJob: Dependency:依赖 ------------- NarrowDependency: 子RD...转载 2018-08-02 17:58:29 · 158 阅读 · 0 评论 -
Spark-03
sparkH -------------- transformation map filter repartition ... reduceByKey() action reduce count take first collect() Spark核心API ----------------- ...转载 2018-08-02 17:57:32 · 145 阅读 · 0 评论 -
Spark-02
Spark -------------------- 通用性。 Spark模块 ------------- Spark Core //核心库 Spark SQL //SQL Spark Streaming //准实时计算。 Spark MLlib //机器学习库 Sp...转载 2018-08-02 17:56:46 · 571 阅读 · 0 评论 -
Spark-12
1.spark SQL统计查询 ----------------------- thriftSerer2,让sparkSQL作为分布式查询引擎。 通知jdbc协议直接访问。 cluster集群部署模式 local standalone //独立,master worker yarn //y...转载 2018-08-03 15:21:12 · 143 阅读 · 0 评论