S_Running_snail
码龄7年
关注
提问 私信
  • 博客:69,592
    69,592
    总访问量
  • 38
    原创
  • 787,634
    排名
  • 19
    粉丝
  • 0
    铁粉

个人简介:我是一个即将毕业的大学生,对软件工程特别喜欢,特别是对于python这个语言

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2018-03-28
博客简介:

S_Running_snail的博客

查看详细资料
个人成就
  • 获得34次点赞
  • 内容获得7次评论
  • 获得181次收藏
创作历程
  • 18篇
    2019年
  • 34篇
    2018年
成就勋章
TA的专栏
  • python
    1篇
  • 大数据学习
  • hadoop
    19篇
  • 音乐
  • java
    3篇
  • spark
    17篇
  • Redis
    3篇
  • scala
    7篇
兴趣领域 设置
  • 大数据
    mysqlredis
  • 搜索
    elasticsearch
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Spark内核架构--清晰图解

详细步骤:1.提交的jar包2.spark-submit提交到集群上运行3.在提交的机器上,运行sparkSubmit的main方法(通过反射的方式创建我们编写主类的实例对象,调用main方法,执行代码)4.当代码到SparkContext,开始初始化SparkContxt5.初始化SparkContext,创建DAGscheduler,TaskScheduler6、当T...
原创
发布博客 2019.04.18 ·
372 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Streaming和Storm区别对比

一、 Spark Streaming与Storm的优劣分析这两个框架在实时计算领域中,都很优秀,只是擅长的细分场景并不相同。Spark Streaming仅仅在吞吐量上比Storm要优秀,但不是所有场景都那么注重吞吐量(集群的利用率比较高)事实上,Storm在实时延迟度上,比Spark Streaming就好多了,前者是纯实时,后者是准实时。而且,Storm的事务机制、健壮...
原创
发布博客 2019.04.18 ·
655 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

大数据实时计算原理--SparkStreaming

Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架。它的底层,其实,也是基于我们之前讲解的Spark Core的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。 只不过,针对实时计算的特点,在RDD之上,进行了一层封装,叫做DStream。之前的Spark SQL,它...
原创
发布博客 2019.04.18 ·
928 阅读 ·
1 点赞 ·
1 评论 ·
5 收藏

Spark-SQL之每日top3热点搜索词案例统计

实现思路1、针对原始数据(HDFS文件),获取输入的RDD2、使用filter算子,去针对输入RDD中的数据,进行数据过滤,过滤出符合查询条件的数据。2.1 普通的做法:直接在fitler算子函数中,使用外部的查询条件(Map),但是,这样做的话,是不是查询条件Map,会发送到每一个task上一份副本。(性能并不好)2.2 优化后的做法:将查询条件,封装为Broadcast广播变...
原创
发布博客 2019.04.13 ·
1261 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Spark-SQL性能优化

性能优化1、设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf())2、在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为INT的,就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时,尽量给出明确的列名,比如select name from students。不要写sel...
原创
发布博客 2019.04.13 ·
1054 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Spark-SQL运行流程

Sprak SQL也是有lazy特性的,当你调用sql()执行SQL语句时,默认执行第一步-->>就是用SqlParser组件对SQL生成一个Unresolved LogicalPlan(调用了SqlParser的apply()方法,通过语法解析器,将SQL各部分组装成LogicalPlan,它是一课语法树---Tree) 然后将UL和SQLContext自身的实...
原创
发布博客 2019.04.13 ·
828 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark-SQL之Hive,JDBC,JSON数据源

案例:利用json数据源执行sql -->> JSONDataSourcehttps://blog.csdn.net/S_Running_snail/article/details/89281218利用Hive数据源执行sql -->> HiveDataSourcehttps://blog.csdn.net/S_Running_snail/article/d...
原创
发布博客 2019.04.13 ·
198 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark-SQL之JDBC数据源

JDBC数据源Spark SQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用Spark Core提供的各种算子进行处理。创建方式:查询时连接Mysql:用Spark SQL处理JDBC中的数据是非常有用的。比如说,你的MySQL业务数据库中,有大量的数据,比如1000万,然后,你现在需要...
原创
发布博客 2019.04.13 ·
480 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark-SQL之Hive数据源

Hive数据源Spark SQL支持对Hive中存储的数据进行读写。操作Hive中的数据时,必须创建HiveContext,而不是SQLContext。HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表,以及用HiveQL语法编写SQL的功能。除了sql()方法,HiveContext还提供了hql()方法,从而用Hive语法来编译sql。案例中讲解如下...
原创
发布博客 2019.04.13 ·
463 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark-SQL之JSON数据源

JSON数据源Spark SQL可以自动推断JSON文件的元数据,并且加载其数据,创建一个DataFrame。可以使用SQLContext.read.json ()方法,针对一个元素类型为String的RDD,或者是一个JSON文件。但是要注意的是,这里使用的JSON文件与传统意义上的JSON文件是不一样的。每行都必须,也只能包含一个,单独的,自包含的,有效的JSON对象。不...
原创
发布博客 2019.04.13 ·
330 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark-SQL之load和save操作

案例:Spark SQL的load,save的案例实战 -->> GenericLoadSaveload和save操作: 对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要用于将DataFrame...
原创
发布博客 2019.04.13 ·
485 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark-SQL之RDD转换为DataFrame

案例:(最下面)一、以编程方式动态指定元数据,将RDD转换为DataFrame -->> RDD2DataFrameProgrammatically二、使用反射的方式将RDD->>DataFrame -->> RDD2DataFrameReflectRDD转换为DataFrame之后的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使...
原创
发布博客 2019.04.13 ·
493 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

scala--match模式匹配

scala中模式匹配,类似于Java中的swich case语法,即对一个值进行条件判断,然后针对不同的条件,进行不同的处理。但是Scala的模式匹配的功能比Java的swich case的功能要强大地多,Java的swich case语法只能对值进行匹配。但是Scala的模式匹配除了可以对值进行匹配之外,还可以对类型进行匹配、对Array和List的元素情况进行匹配、对case class进...
原创
发布博客 2019.04.04 ·
485 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala--Map操作大全

object Map{ def main(args: Array[String]): Unit = { //引用可变,支持读写操作; var map = Map[String,String]("name" -> "song","age" -> "24","context1" -> "hello","context2" -> "world") ...
原创
发布博客 2019.04.04 ·
287 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala基础---数据结构

scala解释器:REPL:Read(取值)> Evaluation(求值)-> Print(打印)>Loop(循环)。 scala解器也被称为REPL,会快速编译 scala代码为字节码,然后交给JM来执行。1. 数据结构特点Scala同时支持可变集合和不可变集合,不可变集合从不可变,可以安全的并发访问。两个主要的包:不可变集合:scala.colle...
原创
发布博客 2019.04.04 ·
361 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark中的CheckPoint是什么?功能是什么?

Checkpoint是什么?Checkpoint,是Spark提供的一个比较高级的功能。有的时候啊,比如说,我们的Spark应用程序,特别的复杂,然后呢,从初始的RDD开始,到最后整个应用程序完成,有非常多的步骤,比如超过20个transformation操作。而且呢,整个应用运行的时间也特别长,比如通常要运行1~5个小时。在上述情况下,就比较适合使用checkpoint功能。因为,对于特...
原创
发布博客 2019.03.10 ·
1489 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

有道云笔记快捷键大全+修改

有道云笔记快捷键设置介绍:您可以点击菜单-设置-快捷键来查看或修改下面是默认的快捷键:1.切换界面模块隐藏(快捷键:ctrl+←)显示(快捷键:ctrl+→);2.新建笔记(快捷键:ctrl+n);3.激活窗口(热键:ctrl+shfit+y);4.隐藏窗口的截屏方式(热键:ctrl+shfit+PrintScreen);5.同步(快捷键:F5);6.插入待办...
原创
发布博客 2019.03.09 ·
16384 阅读 ·
9 点赞 ·
2 评论 ·
10 收藏

scala apply方法

Scala比Java更面向对象的一个方面是Scala没有静态成员。替代品是,Scala有单例对象:singleton object。当单例对象与某个类共享同一个名称时,他被称作是这个类的伴生对象:companion object。你必须在同一个源文件里定义类和它的伴生对象。类被称为是这个单例对象的伴生类:companion class。类和它的伴生对象可以互相访问其私有成员。定义单例对象不...
转载
发布博客 2019.02.27 ·
213 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala-Java实现Action--详解

本文用了Scala和Java两种语言书写,以便于理解主要涉及:1、reduce:2、collect:3、count:4、take:5、saveAsTextFile:6、countByKey:import java.util.Arrays;import java.util.List;import java.util.Map;import org.apache...
原创
发布博客 2018.12.20 ·
235 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala-Java实现Action--详解

本文用了Scala和Java两种语言书写,以便于理解主要涉及:1、reduce:2、collect:3、count:4、take:5、saveAsTextFile:6、countByKey:import java.util.Arrays;import java.util.List;import java.util.Map;import org.apache...
原创
发布博客 2018.12.20 ·
235 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多