spark
文章平均质量分 50
忘川风华录
少年早闻有大才 方及弱冠
展开
-
小白spark学习感悟 AND spark两大版本的比较!!!
Spark2.x 与 Spark1.x 关系Spark2.x 引入了很多优秀特性,性能上有较大提升,API 更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算 API 的统一,实现了 Spark sql 和 Hive Sql 操作 API 的统一。Spark 2.x 基本上是基于 Spark 1.x 进行了更多的功能和模块的扩展,及性能的提升。Spark2.x 新特性1). SparkCo...原创 2018-06-04 20:18:09 · 9215 阅读 · 1 评论 -
spark远程操作hive的一些列操作增删查
因为老早之前配置hive的时候没有把hive的底层计算引擎改为spark,现在对hive的表进行查询的时候很慢,就想把MR换掉,于是这篇文章就诞生了,首先做准备工作,你需要把hive的hive-site.xml拷贝到你的集群的spark目录下还要在你的win上创建一个resources把这个文件拷贝之后接着就是你吧mysql的jar拷贝到你工程的存放jar的目录下,然后拷贝到spark/j...原创 2018-12-08 17:31:31 · 1713 阅读 · 0 评论 -
spark读取文件夹下的文件名称
我之前遇到过处理日志文件的是文件里面没有日期,日期在文件名上,后来我就上网上搜了搜,发现spark并没有对文件名有过多的解释,但是看到一些文章写的是spark对文件名的操作,领略了下,把自己的想法写出来给大家看看 def get_hdfs_dir(input: String, sc: SparkContext): Array[String] = { //创建[LongWritabl...原创 2018-12-16 10:13:15 · 4803 阅读 · 0 评论 -
IP地址转换成Long型数字算法和原理(全网最细!!)
将ip地址转换成数字地址的时候是我做一个归属地查询的项目是碰见的,开始我并不明白将IP转换成数字地址的原理,可能老师上课讲了但是没有好好听,我觉得想理解下面算法就应该理解IP地址和数字地址的原理(菜鸟专用(^_^)) IP地址一般是一个32位的二进制数意思就是如果将IP地址转换成二进制表示应该有32为那么长,但是它通常被分割为4个“8位二进制数”(也就是4个字节每,每个代表的就是小于2的8...原创 2018-09-07 11:51:23 · 21102 阅读 · 4 评论 -
使用sparkSQL2.x读取MySQL方法和配置问题
读取数据之前需要你pc上有mysql,有了mysql之后你需要知道详细的配置信息例如账号和密码以及数据库下的表和表结构,你还有要连接驱动(点此下载https://download.csdn.net/download/qq_36968512/10471651) 1.首先你需要创建sparksession 2.设置一个map集合把JIDBC的链接配置放上去 3.使用SparkSession的方法...原创 2018-10-17 11:04:20 · 3081 阅读 · 5 评论 -
spark处理中文乱码问题!!|����| | �㶫| | �Ϻ�| |����| |����| |����|
既然能看见这篇文章,说明你遇到是乱码问题,具体问题咱们就不再分析了,直接来看为什么乱码,如何不让它乱码 首先咱们分析为什么会乱码,首先因为spark没有自己读取文件的方式所以它采用了hadoop的读取文件的方式,因为日志的格式是GBK编码的,而hadoop上的编码默认是用UTF-8,导致最终输出乱码。所以咱们应该制定编码格式是GBK的,下面通过一个案例来表示直接读取和指定方式读取的结果差别,以及...原创 2018-09-08 10:39:17 · 13390 阅读 · 1 评论 -
sparkSQL基础之-----------2.0以前的sql创建
我这里创建的方式就是两种一,通过RDD和case class的关联来进行创建1.创建SparkConf和SparkContext val conf=new SparkConf() .setMaster("local") .setAppName("old_sparkSql") val sc=new SparkContext(conf)2.创...原创 2018-07-28 11:38:04 · 2352 阅读 · 0 评论 -
2.0的spark的是是如何比1.0的快10-100倍
从三点来理解1.更简单支持标准的SQL和简化的API一,在编程API方面,spark简化了API二,统一了Scala/java下的Dataset和DataFraeam三,只需要创建sparksession不再需要创建sparkcontext等系列的初始化对象四,支持一些管道的持久性和一些R的分布式算法首先我们要明白sparksql处理结构化数据和非结构化数据的方法,对于...原创 2018-11-26 11:32:29 · 2778 阅读 · 0 评论 -
spark源码分析and结构拆解(1)——消息通信原理!!
消息通信原理主要分为三大部分-------------------------------------------1.spark消息通信架构---------------------------------------------------- spark在各个模块中间例如Master,Worker这些东西,一般都是使用Rpc的静态方法创建RpcEnv实例,然后实例化master,...原创 2018-11-26 11:32:17 · 2291 阅读 · 1 评论 -
spark概念详解以及四大核心介绍!!!
Spark特点:大数据分布式计算框架,内存计算分布式计算内存计算 中间结果在内存 迭代容错性多计算范式四大核心扩展功能: Spark SQL:Sql on hadoop系统,提供交互式查询、能够利用传统的可视化工具 在Spark上进行类似SQL的查询操作,报表查询等功能 GraphX:图计算引擎,大规模图运算,pagerank MLlib:聚类分类 分类 推荐 等机器学习算法*Applicatio...原创 2018-06-19 15:12:17 · 7429 阅读 · 0 评论 -
Spark的转换操作基础知识和一些使用技巧!!!
在阅读完最早之前的帖子(点击打开链接)说了如何理解RDD和什么是RDD和对一些基础的术语的解读示例,然后我又发了一份如何创建RDD(点击打开链接)我们这节课来学学习火花的一些对RDD的转换操作,转换操作就是不会真的进行分布式计算,而是将RDD从一种状态转换到另外一种状态,延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作,转换操作大致分为以下两种形式我们着重...原创 2018-11-26 11:32:08 · 3851 阅读 · 0 评论 -
spark怎么创建RDD,一个创建RDD的方式有哪些它们的区别是什么!!(Unit2)
spark的编程接口包括1.分区信息,数据集的最小分片 (1)Patitions()用法: scala> val part=sc.textFile("/user/README.md",6)part: org.apache.spark.rdd.RDD[String] = /user/README.md MapPartitionsRDD[9] at textFile at ...原创 2018-08-14 15:16:39 · 7255 阅读 · 0 评论 -
spark的一些难以理解的概念和一些知识点的解读(高频考点!!)(Unit1)
这篇文章是对于还没有入门和刚刚入门的spark小白提的,大佬可以给出意见,本人接受!!!关于RDD部分,首先你要知道什么什么RDDRDD字面意思就是弹性分布式数据集。。。。。。。(百度一下都是这种字眼很让人反感)个人感觉应该要分开理解1。弹性 1. RDD可以在内存和磁盘之间手动或自动切换(后续会仔细讲解) 2. RDD可以...原创 2018-06-12 16:49:21 · 4026 阅读 · 1 评论 -
Spark的低成本安装(win) and 三节点集群安装(linux)
我这里给出两种安装spark的方式,一种是在win上安装另一种就是在linux集群上安装,前一种安装方式是一种低成本的安装没有shell界面,非常适合入过门的小白练习自己对spark的业务处理能力,而且这种安装方式能对电脑省去一大笔的cpu所以个人比较喜欢,第二种安装方式就是和之前安装hadoop的方式基本一样,比于第一种安装方式多了shell界面,所以就不过多介绍方式一,首先去官网下载安...原创 2018-08-14 15:17:00 · 2357 阅读 · 0 评论 -
spark调优
首先我们应该对spark的UI界面很熟悉,因为只是看输入日志能难判断出程序在哪里耗费时间比较长,一般是从两点判断一是序列化,如果序列化时间过长,肯定不行,二是GC,gc时间过长肯定也不行...原创 2019-01-09 17:18:49 · 203 阅读 · 0 评论