自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

转载 使用zipwithindex 算子给dataframe增加自增列 row_number函数实现自增,udf函数实现自增...

DataFrame df = ...StructType schema = df.schema().add(DataTypes.createStructField("id", DataTypes.LongType, false));使用RDD的zipWithIndex得到索引,作为ID值:JavaRDD<Row> rdd = df .javaRDD() // 转为J...

2019-09-03 18:10:00 197

转载 hive 四种表,分区表,内部,外部表,桶表

Hive四大表类型内部表、外部表、分区表和桶表一、概述总体上Hive有四种表:外部表,内部表(管理表),分区表,桶表。分别对应不同的需求。下面主要讲解各种表的适用情形、创建和加载数据方法。二、具体内容1.内部表创建内部表和加载数据create table emp_inner(empno i...

2019-09-03 18:00:00 230

转载 hive 动态分区

非常重要的动态分区属性:hive.exec.dynamic.partition 是否启动动态分区。false(不开启) true(开启)默认是 falsehive.exec.dynamic.partition.mode 打开动态分区后,动态分区的模式,有 strict和 nonstrict 两个值可选,strict 要求至少包含一个静态分区列,nonstrict则无此要求。各...

2019-09-03 11:07:00 223

转载 spark storm 反压

因特殊业务场景,如大促、秒杀活动与突发热点事情等业务流量在短时间内剧增,形成巨大的流量毛刺,数据流入的速度远高于数据处理的速度,对流处理系统构成巨大的负载压力,如果不能正确处理,可能导致集群资源耗尽最终集群崩溃,因此有效的反压机制(backpressure)对保障流处理系统的稳定至关重要。Storm和SparkStreaming都提供了反压机制,实现各不相同对于开启了ac...

2019-08-23 11:15:00 140

转载 Streaming+Sparksql使用sql实时分析 rabbitmq+mongodb+hive

SparkConf sparkConf = new SparkConf()//此处使用一个链接切记使用一个链接否则汇报有多个sparkcontext错误 .setAppName("SparkConsumerRabbit") .setMaster("local[2]") .set("hive.metastore.uris", thrift) ...

2019-08-13 10:35:00 296

转载 org.apache.spark.logging类报错

一,1 在使用spark读取kafka数据时,当spark升级到2.0之后,出现如上问题:之前遇到了,当时在工程里面添加了org.apache.spark.Logging类,能够运行。但是在后期使用过程中,又遇到了相同的问题,为了一劳永逸,今天彻底把问题解决。在项目下创建org.apache.spark.logging类将源码考入类中package org.apach...

2019-08-12 15:17:00 1056

转载 spark和mapreduce的区别

spark和mapreduced 的区别map的时候处理的时候要落地磁盘 每一步都会落地磁盘 reduced端去拉去的话 基于磁盘的迭代spark是直接再内存中进行处理 dag 执行引擎是一个job的优化 将一个job话成很多快 分成多个task去跑任务 读取数据来源比喻亚马逊的s3 和hbase很广运行模式也有很多spark项目一般java 和scala 来写 pytho...

2019-08-06 20:51:00 172

转载 scala基本语法

scala基本语法scala函数1 def定义方法2 方法的返回值类型可以省略3 方法体重最后一行计算结果可以返回 return 如果省略方法类型4 方法参数 要指定类型5 如果方法体可以一步搞定 方法体中的{}可以省略6 定义方法=可以省略,省略之后,无论方法体重最后的计算结果是那些都会被丢弃二 递归函数三 有默认参数的函数四 可变长参数函数五 匿名函数 ()={}六 嵌套函数七 ...

2019-08-06 20:49:00 105

转载 spark和strom优劣分析

对于Storm来说:1、建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进行金融交易和分析2、此外,如果对于实时计算的功能中,要求可靠的事务机制和可靠性机制,即数据的处理完全精准,一条也不能多,一条也不能少,也可以考虑使用Storm3、如果还需要针对高峰低峰时间段,动态调整实时计算程序的并行度,以最大限度利用集群资源(通常是在小型公司,集群资源紧张的情...

2019-08-06 20:47:00 137

转载 hadoop各版本hadoop.dll和winutils.exe缺少这两个文件

1.1 缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries1.2 缺少hadoop.dllUnable to load native-hadoop library for your platform… using builtin-Java classes where...

2019-08-06 20:43:00 1869

转载 hive数仓客户端界面工具

1.Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。2.SQuirrel SQL Client从http://squirrel-sql.sourceforge.net/下载最新的squirrel-sql,版本为3...

2019-08-06 20:38:00 512

转载 spark注册虚拟表和取消注册

// spark应用程序终止前有效df.createOrReplaceGlobalTempView("tempViewName") 取消注册:spark.catalog.dropTempView("tempViewName")spark.catalog.dropGlobalTempView("tempViewName")临时表只是给df起了个名字,能够像使用hive表一样使用,并不会占...

2019-08-06 20:25:00 248

转载 maven打jar包包括依赖包

<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> ...

2019-08-06 20:20:00 146

转载 hadoop断电报错解决

一,/home/hadoop/tmp/dfs/name/current 目录下查看文件二,1.stop hadoop所有的服务;2.重新格式化namenode即可: hadoop根目录下: hadoop namenode -format 重新格式化完就好了重新格式化完后要更改文件目录权限hadoop fs -chmod -R 777 /tmp三,hadoop配置挺麻烦的,总会出现各种奇...

2019-08-06 18:39:00 244

转载 window下打jar包

比如我的项目在 F/MyjarF:\Myjar>ll'll' 不是内部或外部命令,也不是可运行的程序或批处理文件。F:\Myjar>cd mian系统找不到指定的路径。F:\Myjar>cd java系统找不到指定的路径。F:\Myjar>cd srcF:\Myjar\src>cd mainF:\Myjar\src\main>c...

2019-08-06 18:15:00 147

转载 无法解析主机报错

[root@node3 ~]# yum -y install make gcc Loaded plugins: fastestmirror, langpacksLoading mirror speeds from cached hostfile * base: centos.ustc.edu.cn * extras: centos.ustc.edu.cn * updates: cento...

2019-08-06 18:09:00 1021

转载 SparkStreaming对接rabbitMQ

/** * SparkStreaming对接rabbitmq java代码 */public class SparkConsumerRabbit { public static void main(String[] args) throws InterruptedException, AnalysisException { SparkConf sparkConf = ...

2019-07-31 20:10:00 1131

转载 load文件到hive,并保存

DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.parquet"); usersDF.select("name", "favorite_color").write() .save("hdfs://spark1:9000/namesAndFa...

2019-07-31 13:15:00 295

转载 kafka模式对比

Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据。然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用Spark Streaming的预写日志机制(Writ...

2019-07-31 13:11:00 124

转载 RabbitMQ搭建单机及集群

1,基本环境配置 hosts 文件 免密登录2,访问官网https://www.rabbitmq.com/download.html3,4,安装依赖yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel5,yum install erlang6,安装er...

2019-07-31 13:03:00 100

转载 Nginx搭建详细

Linux 安装Nginx搭建详细内容进入:/usr/java/nginx位置下载nginx: wget et http://nginx.org/download/nginx-1.8.0.tar.gz下载openssl : wget et http://www.openssl.org/source/openssl-fips-2.0.9.tar.gz下载zlib : wge...

2018-10-31 09:30:00 91

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除