大JAVA解决方案

数据科学

Hive + Sqoop + MySQL + Spark

   予早 关注 2018.12.22 17:31* 字数 363 阅读 293评论 0喜欢 0 安装 Hive +Sqoop+MySQL+Spark 先将 system_logs.sql 导入 MySQL,使用 Sqoop 将 MySQL 中的数据导入 Hive 使用 spark 读...

2019-02-11 17:13:07

阅读数 44

评论数 0

通过公共API访问导入数据到OpenTSDB

  更新时间: 2018-09-26 10:56 查看PDF SQL应用 使用SQL方式编写一个完整的对接OpenTSDB代码的步骤如下: 创建SparkSession。   import org.apache.spark.sql.SparkSession val sparkSe...

2019-01-08 08:38:26

阅读数 32

评论数 0

Spark(一): 基本架构及原理

  2017年03月08日 11:26:45 风语飘摇 阅读数:99174     Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其...

2018-12-26 17:22:15

阅读数 56

评论数 0

spark 的各种参数配置

  2018年01月03日 11:19:46 hankl1990 阅读数:1784 https://www.jianshu.com/p/9b243c0a7410       1 spark on yarn常用属性介绍 属性名 默认值 属性说明 spark.yarn...

2018-12-26 16:55:29

阅读数 16

评论数 0

spark运行方式及其常用参数

  2016年09月19日 18:27:47 jiewuyou 阅读数:1224 标签: spark 更多 个人分类: 云计算 所属专栏: spark私房菜 本文将介绍spark的几种运行方式,及常用的参数 yarn cluster模式 例行任务一般会采用这种方式运行 指定固定的ex...

2018-12-26 16:46:48

阅读数 24

评论数 0

spark-shell运行spark任务参数设置

  2016年09月23日 11:02:02 zrc199021 阅读数:12548 之前初学spark用spark-shell执行小程序的时候, 每次执行action操作(比如count,collect或者println),都会报错: WARN TaskSchedulerImpl: In...

2018-12-26 16:27:41

阅读数 32

评论数 0

Spark core优化配置参数

Spark core优化配置参数 2018年06月08日 12:30:27 张行之 阅读数:674  版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_33689414/article/details/80621578 Spark cor...

2018-12-25 15:24:54

阅读数 8

评论数 0

spark高可用集群搭建及运行测试

  文中的所有操作都是在之前的文章spark集群的搭建基础上建立的,重复操作已经简写; 之前的配置中使用了master01、slave01、slave02、slave03;   本篇文章还要添加master02和CloudDeskTop两个节点,并配置好运行环境;   一、流程: 1...

2018-12-21 13:01:37

阅读数 35

评论数 0

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程 1.选取三台服务器(CentOS系统64位)   114.55.246.88 主节点   114.55.246.77 从节点   114.55.246.93 从节点      之后的操作如果是用普通用户操作的话也必须知道...

2018-12-20 10:47:28

阅读数 64

评论数 1

专注于Scala语言、Hadoop及Spark大数据处理技术

摇摆少年梦的技术博客专注于Scala语言、Hadoop及Spark大数据处理技术RSS订阅只看原创排序:默认按更新时间按访问量原 Spark修炼之道(进阶篇)——Spark入门到精通:第十二节 Spark Streaming—— DStream Window操作作者:周志湖 微信号:zhouzhi...

2018-07-16 11:08:59

阅读数 184

评论数 0

Eclipse报错Project configuration is not up-to-date with pom.xml

Eclipse报错Project configuration is not up-to-date with pom.xml1.问题Description Resource Path Location Type Project configuration is not up-to-date with...

2018-05-21 13:52:42

阅读数 168

评论数 0

tomap 和tolist

cala> lst0.grouped(4)res228: Iterator[List[Int]] = non-empty iteratorscala> res228.toListres229: List[List[Int]] = List(List(1,...

2018-04-22 22:45:14

阅读数 339

评论数 0

查数据println(res171.map(_.toBuffer).toBuffer)

scala> scala> val rdd2 = sc.textFile("hdfs://centosnode1:9000/person.json")scala> rdd2.collectres1...

2018-04-22 21:49:28

阅读数 140

评论数 0

设置缓存

2018-04-22 19:42:34

阅读数 80

评论数 0

spark性能调优指南高级篇

spark性能调优指南高级篇转载 2018年04月20日 14:05:33标签:spark9前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优...

2018-04-22 18:31:06

阅读数 69

评论数 0

算子

http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.htmlmapPartitionsWithIndexval func = (index: Int, iter: Iterator[(Int)]) =&gt...

2018-04-22 17:38:49

阅读数 74

评论数 0

RDD方法

/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements.  See the NOTICE file distributed with * thi...

2018-04-22 13:42:43

阅读数 315

评论数 0

spark问题

【腾讯云】买域名送云解析+SSL证书+建站!>>>   摘要: 根据开发测试锁遇到的一些问题总结记录 注意:如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么...

2018-04-21 21:27:34

阅读数 118

评论数 0

initial job has not accepted any resources的spark错误解决办法

initial job has not accepted any resources的spark错误解决办法原创 2016年03月04日 16:57:35标签:spark /多个程序 /同步提交1936在运行多个spark应用程序的时候,经常会出现initial job has not accep...

2018-04-21 19:42:54

阅读数 245

评论数 0

class"javax.servlet.ServletRegistration"'s signer information does notmatch signer information of ot

ERROR spark.SparkContext: Errorinitializing SparkContext.java.lang.SecurityException:class"javax.servlet.ServletRegistration"'s sig...

2018-04-21 19:30:10

阅读数 505

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭