spark
怎么全部重名了
坚持就是胜利
展开
-
sparkGraphx图计算DEMO
spark图计算简单来说就是构建边集合,点集合,然后把边集合,点集合放到graphx中进行计算。下面我用scala写一下spark图计算的demo。package sparksqlimport org.apache.spark.graphx.{Edge, Graph}import org.apache.spark.{SparkConf, SparkContext}object spa...原创 2019-07-18 16:41:27 · 641 阅读 · 0 评论 -
spark-checkpoint检查点Demo
首先要知道什么是checkpoint?checkpoint就是检查点,用于核查rdd的进度。比如说一长串rdd计算操作需要花费很长时间,占用资源也比较多,突然断电,服务器宕机等等不可预测事情发生时候,这个时候如何rdd从新计算将又要花费大量时间,占用大量资源,这就耗时耗力了,spark的checkpoint就是为了解决这个问题而生的。checkpoint先把rdd的中间重要计算结果保存到hdf...原创 2019-07-18 16:51:55 · 243 阅读 · 0 评论 -
spark通过jdbc连接数据库
连接数据库的方法有很多,不同的数据库也有不同的方法,今天说一下用jdbc连接数据库这里以mysql为例说明一下,其实也很简单,无非就是配置好driver,url,账号,密码。好了,不多说,上代码。val conf = new SparkConf().setAppName("jdbctest").setMaster("local[*]")val session = SparkSession....原创 2019-07-18 17:02:16 · 729 阅读 · 0 评论 -
spark-jdbc读取数据库分区
spark通过jdbc从数据库中读取数据,如果数据过大,一定要分区,否则运行慢,分区数目可以从webui上看到,分区数就是task数目。如果分区后,有的task很快完成有的task完成比较慢,这时候需要用sql去查找数据库中看看到底哪里发生数据倾斜了,在数据倾斜的地方多建立几个分区,这样会快些。好了,不多说,上代码import java.util.Propertiesimport org....原创 2019-07-18 17:06:00 · 1738 阅读 · 0 评论 -
spark通过jdbc连接hive
连接hive的方法有很多,这里说说通过jdbc连接hive首先要把hive下的conf下的hive-site.xml文件复制到编译器中object readAndWriteHive { //从hive中读取数据表,去重并写到一个新表中 def main(args: Array[String]): Unit = { //加载配置文件 val load = ConfigFa...原创 2019-07-18 17:33:14 · 2563 阅读 · 1 评论 -
编译spark 2.3.0源码
编译spark 2.3.0源码最近编译了spark 2.3.0。现在做一下总结。最开始以为这不需要多久时间很快就完成了,真正操作时候才发现有各种坑,完全在意料之外,有些坑让人没有头绪,找不到方向,浪费大把时间,我花了将近一天才解决这个问题。首先需要准备以下东西:spark源码 2,.3.0 没有的话去官网下载maven 3.Xscala 2.11编译方法有很多,可以用maven...原创 2019-09-27 17:57:38 · 365 阅读 · 0 评论 -
spark 2.2.0源码解读(一) rdd源码解读
spark 2.2.0源码解读(一) rdd源码解读spark中有很多rdd,每个rdd都有自己的作用,恰当用好rdd可以达到事半功倍的效果.闲话少说,直接上代码cache /** * Persist this RDD with the default storage level (`MEMORY_ONLY`). * 持久化RDD使用默认的存储级别(`MEMORY_ONLY`...原创 2019-10-08 20:07:48 · 228 阅读 · 0 评论 -
spark读取外部配置文件
配置参数可以写在项目中的properties.xml中也可以在spark-submit上面写上你的配置参数,如果配置参数足够多,写到spark-submit后面很麻烦可以把这些配置参数写到一个文件中,直接读取配置文件获取配置。建一个property.yml,配置如下es.nodes: 127.0.0.1es.port: 9356spark程序如下 def main(args: Arra...原创 2019-10-11 15:32:27 · 1171 阅读 · 0 评论