大数据
happiless
这个作者很懒,什么都没留下…
展开
-
Spark从入门到精通(四)--二次排序和TopN问题
二次排序javaSparkConf conf = new SparkConf();conf.setAppName("SecondSort");conf.setMaster("local");JavaSparkContext context = new JavaSparkContext(conf);JavaRDD<String> textFile = context.textFile("./data/secondSort");JavaPairRDD<MySort, String原创 2020-07-13 00:50:22 · 138 阅读 · 0 评论 -
Spark从入门到精通(三)--SparkShuffle与广播变量和累加器
Spark ShufflereduceByKey会将上一个RDD中的每一个key对应的所有value聚合成 一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的valueShuffle Write:上一个stage的每个map task就必须保证将自己处理 的当前分区中的数据相同的key写入一个分区文件中,可能会写入多个 不同的分区文件中Shuffle Read:reduce task就会从上一个stage的所有task所在的原创 2020-07-13 00:49:18 · 268 阅读 · 0 评论 -
Spark从入门到精通(七)--Spark优化
Spark优化原创 2020-07-13 00:48:37 · 202 阅读 · 0 评论 -
Spark从入门到精通(五)--SparkSQL
SparkSQL使用DataFrame创建表将DataFrame注册成临时的一张表,这张表临时注册到内存中,是逻辑上的表,不会雾化到磁盘,就可以使用sqlframe.createOrReplaceTempView("mytable")将RDD转为DataSetReflection 反射的方式创建DataSetimport session.implicits._/** * 直接读取文件为DataSet */ val person: Dataset[String] = sessi原创 2020-07-13 00:50:53 · 163 阅读 · 0 评论 -
Spark从入门到精通(六)--SparkStreaming
SparkStreamingSparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。Flink & Storm & SparkStreaming 区别:Strom:纯实时处理数据,吞吐量小 --水龙头滴水SparkStreaming : 准实时处理数据,微批处理数原创 2020-07-13 00:45:46 · 184 阅读 · 0 评论 -
Spark从入门到精通(二)--SparkCore与RDD编程
Spark代码流程原创 2020-07-13 00:45:09 · 313 阅读 · 0 评论 -
Spark集群搭建与任务提交
Spark集群搭建安装jdk解压安装spark修改配置文件cd spark-2.3.1/confcp slaves.template slavesvi slaves node02 node03cp spark-env.sh.template spark-env.shvi spark-env.sh export SPARK_MASTER_HOST=node01 export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CO原创 2020-07-12 22:09:23 · 144 阅读 · 0 评论 -
Spark从入门到精通(一)--Spark架构
前言犹豫了很久,最终还是决定开始写点什么来记录自己的程序人生,我做过全栈工程师,做过大数据开发,对算法也有一定的研究。很多人可能会有疑问,为什么写的第一篇文章居然是spark的,像hadoop,hive等很多大数据技术都没讲,首先一方面原谅我的私心,因为我打算在我的团队内部做一个spark的培训,另外还有一方面spark是最实用的东西,大家可以关注我,之后我会把我学过的一些大数据组件,以及机器学习,深度学习的技术都分享出来,也会继续学习新东西并分享出来。Spark架构Spark与MapReduce的原创 2020-07-12 22:08:35 · 155 阅读 · 0 评论