Spark
逗点儿
大数据爱好者,菜鸟
展开
-
Spark-IDEA环境报错
环境背景:IntelliJ IDEA Community Edition 2017.3.2Scala 2.11.8Spark 2.2.0Hadoop 2.6.0-cdh5.7.0报错一: System memory 259522560 must be at least 471859200.解决方案: 设置Run ->Edit Configurations->Application-原创 2018-02-25 13:58:45 · 248 阅读 · 0 评论 -
Spark Shuffle详解之SortShuffle
在Spark1.2版本之后,出现了SortShuffle,这种方式以更少的中间磁盘文件产生而远远优于HashShuffle。而它的运行机制主要分为两种。一种为普通机制,另一种为bypass机制。而bypass机制的启动条件为,当shuffle read task的数量小于等于spark.shuffle.sort.bypassMergeThreshold参数的值时(默认为200),就会启用bypas...原创 2018-07-24 23:35:27 · 8786 阅读 · 1 评论 -
Spark Shuffle详解之HashShuffle
概述所谓Shuffle就是将不同节点上相同的Key拉取到一个节点的过程。这之中涉及到各种IO,所以执行时间势必会较长,Spark的Shuffle在1.2之前默认的计算引擎是HashShuffleManager,不过HashShuffleManager有一个十分严重的弊端,就是会产生大量的中间文件。在1.2之后默认Shuffle改为SortShuffleManager,相对于之前,在每个Task...原创 2018-07-23 21:16:10 · 2058 阅读 · 0 评论 -
问题:IDEA构建scala项目,无法显示文件结构且仅有.idea文件夹
问题:解决办法: 在构建项目时,添加 Name:archetypeCatalog Value:internal原创 2018-06-29 18:00:10 · 983 阅读 · 0 评论 -
Spark笔记整理之RDD转化DataFrame
1.概述RDD转化为DataFrame共有两种方式,下面我将结合源码,对这两种方式进行试验和讲解通过反射的方式,这种方式需要事先知道这份数据的Schema信息,才能使用,应用场景例如:读取HDFS数据等等通过编码实现,这种方式是自定义Schema的方式,可以在不知道Schema的时候使用。2.详解1).反射方式:定义case class,类似于定义DF的Schema...原创 2018-05-29 12:13:31 · 838 阅读 · 2 评论 -
慕课网日志分析实战二:日志解析
1.定义类型 在日志解析前我们需要先知道我们需要从日志中获取什么,首先我们要了解一下日志: 这个日志中一共有四个字段分别为:日期、网址、流量、Ip。这是我们首先要了解到的。接下来我们需要再看需求:需求一:统计imooc主站最受欢迎课程/手记的topn访问次数需求二:按地市统计imooc主站最受欢迎topn课程需求三:按流量统计imooc主站最受欢迎的topn课程从需求上我们...原创 2018-05-29 11:36:10 · 1917 阅读 · 10 评论 -
慕课网日志分析实战一:架构及概述
学习完慕课网SparkSQL日志分析这门课之后,我想把我做项目的过程与踩的坑与大家分享一下,希望对大家能有帮助。 1.项目的整体架构2.概述 这个项目比较简单,是对于SparkSQL知识的一种梳理,所以没有应用Flume和Kafka导入数据。针对于慕课网日志进行数据分析,对日志信息清洗使其转化为合适的格式,并对清洗好的数据进行多维度的统计分析,并将统计分析的结果打到MySQL上,方便其...原创 2018-05-28 12:18:00 · 1702 阅读 · 6 评论 -
美团点评技术团队:Spark性能优化指南——基础篇读后感
1.原文链接 https://tech.meituan.com/spark-tuning-basic.html 2.介绍: 在看过美团点评的文章后,我觉得对Spark的调优写的十分棒,我决定综合自己对其的理解写一篇针对这篇文章的读后感。以加深对其的理解。调优分为基础篇和高级篇,我先对比较倾向于代码的基础篇进行讲解。3.正文原则一:避免重复的RDDRDD...原创 2018-05-21 16:58:06 · 977 阅读 · 0 评论 -
Spark笔记整理1——RDD概述
dawd原创 2018-05-12 23:31:32 · 234 阅读 · 0 评论 -
Spark利用hive与MySQL外部数据源做join
MySQL端使用dept表,表内容如下:mysql> select * from dept -> ;+--------+------------+----------+| deptno | dname | loc |+--------+------------+----------+| 10 | ACCOUNTING | NEW YO...原创 2018-04-03 19:06:55 · 690 阅读 · 0 评论 -
慕课网日志分析实战三:需求实现代码
本来打算这一系列一直更下去,但是后来由于实习和秋招的问题一直耽搁,本来打算一切结束再继续更新这一系列,感觉评论有点多,CSND小透明受宠若惊。决定继续更新下去。在慕课日志分析这个项目我觉得说简单其实也并不简单,蕴含着很多日志处理的坑。说简单是因为大部分繁重的步骤,包括业务梳理,字段整合之类的,已经在前面帮咱们解决了,不需要学习者做什么,学习者只需要将数据进行简单分词,转化DF或DS写代码或者SQL...原创 2018-07-29 16:22:57 · 847 阅读 · 4 评论