sqoop将mysql数据导入hdfs和hive学习笔记

#安装好以后将mysql驱动mysql-connector-java-5.1.21-bin.jar放到sqoop安装目录的lib下面 一、将mysql数据导入hdfs,命令如下: [root@master bin]# /apps/sqoop-1.4.7/bin/sqoop import \...

2019-03-07 10:54:42

阅读数 45

评论数 0

如何运行一个uve.js项目

目录 第一步首先安装node.js 第二步安装vue-cli脚手架构建工具 第三步运行项目 第一步首先安装node.js 在官网下载node.js(.msi)安装包版本 安装的时候可一路next即可完成安装。在安装的时候可能会出现2503错误,这是因为安装权限的问题。 所以你可...

2019-03-04 11:17:07

阅读数 117

评论数 0

maven构建SSM项目pom.xml文件依赖

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance&qu...

2019-01-16 14:38:09

阅读数 194

评论数 0

Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative

Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: D:%5CHad...

2018-09-18 10:12:38

阅读数 344

评论数 0

spark-submit提交jar包到spark集群上

一、首先将写好的程序打包成jar包。在IDEA下使用maven导出jar包,如下: 在pom.xml中添加以下插件 <plugin> <groupId&g...

2018-09-18 10:08:42

阅读数 4856

评论数 0

JdbcRDD在多个分区情况下是如何读取数据的

package nuc.sw.test import java.sql.{Connection, DriverManager} import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkConte...

2018-09-17 15:25:43

阅读数 140

评论数 0

什么是shuffle,如何区分操作是否还有shuffle

将一份数据分开发送到好几个地方的操作还有shuffle

2018-09-16 12:10:17

阅读数 417

评论数 0

深入理解java虚拟机(第一篇)

在eclipse中查看内存溢出的案例: package main; import java.util.ArrayList; import java.util.List; /** * @author 刘卫卫 * 2018年9月12日下午3:22:49 */ public class H...

2018-09-12 16:25:07

阅读数 47

评论数 0

深入理解RDD

什么是RDD? RDD 是一个分布式的可变集合 常用的Transformation(即转换,延迟加载) 通过并行化scala集合创建RDD 数据既可以放到内存当中,又可以放在磁盘当中 五个特点: 1、一系列分区组成 2、每一个分区上都会有一个函数作用在上面 3、RDD和RDD之间存在依赖关系 4、...

2018-09-11 22:03:58

阅读数 40

评论数 0

java集合框架源码解析

给jdk写注释系列之jdk1.6容器(1)-ArrayList源码解析 给jdk写注释系列之jdk1.6容器(2)-LinkedList源码解析 给jdk写注释系列之jdk1.6容器(3)-Iterator设计模式 给jdk写注释系列之jdk1.6容器(4)-HashMap源码解析 给jd...

2018-09-08 11:03:10

阅读数 39

评论数 0

Hbase高可用集群搭建

下载Hbase安装包,并解压 1、修改hbase-1.2.6/conf/hbase-env.sh 配置文件 export JAVA_HOME=/apps/jdk1.8.0_171 export HADOOP_HOME=/apps/hadoop-2.8.0 #配置hadoop变量,否则hba...

2018-09-04 10:31:29

阅读数 235

评论数 0

RDD算子2

http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html //让我们先用分...

2018-09-03 21:44:14

阅读数 27

评论数 0

RDD算子1

RDD 是一个分布式的可变集合 #常用的Transformation(即转换,延迟加载) #通过并行化scala集合创建RDD scala> val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8,9,10)) rdd1: org....

2018-09-03 21:43:01

阅读数 20

评论数 0

spark中的reduceByKey VS groupByKey

在编写spark程序时,reduceByKey和groupByKey都可以实现分组聚合的功能,但是在实际中使用哪一个更好呢。 还记的在写MapReduce程序的时候,每一台机器上的数据会经过shuffle,分发到属于自己的机器上进行汇总计算。这个过程是通过网络进行IO操作的,是很费资源的。所以在...

2018-08-31 20:22:43

阅读数 124

评论数 0

RDD常用的transformation及分区详解

RDD常用的transformation及分区详解 常用的transformation(转换,延迟加载) 创建RDD有两种方法: 1.通过driver端,也就是spark-shell端通过集合来创建。 2.可以通过集群上的数据来创建。

2018-08-30 21:52:48

阅读数 43

评论数 0

什么是RDD

什么是RDD,RDD的transformation和action到底是什么

2018-08-30 20:56:01

阅读数 120

评论数 0

Spark+HDFS实现wordCount

首先启动环境: 1、启动hdfs [root@master conf]# start-dfs.sh 2、然后启动spark [root@master spark-2.2.0]# sbin/start-all.sh  --master spark://master.hadoop:7077...

2018-08-30 15:04:27

阅读数 217

评论数 0

HIVE使用本地模式执行操作

将hive的Job交给yarn执行太慢,hive支持本地模式 set hive.exec.mode.local.auto=true;默认为false 测试例子: 试验:先创建一张表,指定文件格式为sequencefile create table t_seq(id int, name st...

2018-08-29 09:46:27

阅读数 765

评论数 0

Spark提交任务的命令

bin/spark-submit --master spark://master.hadoop:7077,slave1.hadoop:7077 --executor-memory 512mb --total-executor-cores 4 --class nuc.sw.test.ScalaWo...

2018-08-28 19:47:29

阅读数 743

评论数 0

WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources

提交Spark任务时,报错: WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and h...

2018-08-28 19:27:58

阅读数 206

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭