- 博客(4)
- 收藏
- 关注
原创 性能优化
spark core部分一:Spark性能优化核心基石1,Spark是采用Master-slaves的模式进行资源管理和任务执行的管理: a) 资源管理:Master-Workers,在一台机器上可以有多个Workers; b) 任务执行:Driver-Executors,当在一台机器上分配多个Workers的时候,那么默认情况下每个Worker都会为当前运行的
2016-07-25 10:01:40 995
原创 shuffle
一,到底什么事Shuffle? Shuffle中文翻译为“洗牌”,需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。二,Shuffle可能面临的问题?运行Task的时候才会产生Shuffle(Shuffle已经融化在Spark的算子中了)。1,数据量非常大;2,数据如何分类,即如何Partition,Hash、Sort、钨丝计划
2016-07-18 10:16:15 921
原创 spark 评估指标
评估指标1 Classification model evaluation1.1 二元分类 1.1.1阈值调整1.2 Multiclassclassification 1.2.1 Label based metrics1.3 Muitilabel classification1.4 Ranking systems2 Regression mo
2016-07-16 16:06:03 6807
原创 sparkStreaming_电商案例
数据生成:package com.java__SparkStreaming;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import java.util.*;/** * Created by Ad
2016-07-12 10:02:45 2280
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人