aoyugang0603
码龄9年
关注
提问 私信
  • 博客:8,939
    8,939
    总访问量
  • 暂无
    原创
  • 670,923
    排名
  • 0
    粉丝
  • 0
    铁粉
  • 加入CSDN时间: 2016-04-03
博客简介:

aoyugang0603的博客

查看详细资料
  • 原力等级
    当前等级
    0
    当前总分
    0
    当月
    0
个人成就
  • 获得1次点赞
  • 内容获得0次评论
  • 获得4次收藏
创作历程
  • 20篇
    2019年
  • 1篇
    2018年
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

spark注册虚拟表和取消注册

// spark应用程序终止前有效df.createOrReplaceGlobalTempView("tempViewName") 取消注册:spark.catalog.dropTempView("tempViewName")spark.catalog.dropGlobalTempView("tempViewName")临时表只是给df起了个名字,能够像使用hive表一样使用,并不会占...
转载
发布博客 2019.08.06 ·
267 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive数仓客户端界面工具

1.Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。2.SQuirrel SQL Client从http://squirrel-sql.sourceforge.net/下载最新的squirrel-sql,版本为3...
转载
发布博客 2019.08.06 ·
533 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

maven打jar包包括依赖包

<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> ...
转载
发布博客 2019.08.06 ·
162 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop断电报错解决

一,/home/hadoop/tmp/dfs/name/current 目录下查看文件二,1.stop hadoop所有的服务;2.重新格式化namenode即可: hadoop根目录下: hadoop namenode -format 重新格式化完就好了重新格式化完后要更改文件目录权限hadoop fs -chmod -R 777 /tmp三,hadoop配置挺麻烦的,总会出现各种奇...
转载
发布博客 2019.08.06 ·
262 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

window下打jar包

比如我的项目在 F/MyjarF:\Myjar>ll'll' 不是内部或外部命令,也不是可运行的程序或批处理文件。F:\Myjar>cd mian系统找不到指定的路径。F:\Myjar>cd java系统找不到指定的路径。F:\Myjar>cd srcF:\Myjar\src>cd mainF:\Myjar\src\main>c...
转载
发布博客 2019.08.06 ·
158 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

load文件到hive,并保存

DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.parquet"); usersDF.select("name", "favorite_color").write() .save("hdfs://spark1:9000/namesAndFa...
转载
发布博客 2019.07.31 ·
314 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

无法解析主机报错

[root@node3 ~]# yum -y install make gcc Loaded plugins: fastestmirror, langpacksLoading mirror speeds from cached hostfile * base: centos.ustc.edu.cn * extras: centos.ustc.edu.cn * updates: cento...
转载
发布博客 2019.08.06 ·
1055 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

RabbitMQ搭建单机及集群

1,基本环境配置 hosts 文件 免密登录2,访问官网https://www.rabbitmq.com/download.html3,4,安装依赖yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel5,yum install erlang6,安装er...
转载
发布博客 2019.07.31 ·
109 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkStreaming对接rabbitMQ

/** * SparkStreaming对接rabbitmq java代码 */public class SparkConsumerRabbit { public static void main(String[] args) throws InterruptedException, AnalysisException { SparkConf sparkConf = ...
转载
发布博客 2019.07.31 ·
1157 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

使用zipwithindex 算子给dataframe增加自增列 row_number函数实现自增,udf函数实现自增...

DataFrame df = ...StructType schema = df.schema().add(DataTypes.createStructField("id", DataTypes.LongType, false));使用RDD的zipWithIndex得到索引,作为ID值:JavaRDD<Row> rdd = df .javaRDD() // 转为J...
转载
发布博客 2019.09.03 ·
216 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka模式对比

Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据。然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用Spark Streaming的预写日志机制(Writ...
转载
发布博客 2019.07.31 ·
139 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 四种表,分区表,内部,外部表,桶表

Hive四大表类型内部表、外部表、分区表和桶表一、概述总体上Hive有四种表:外部表,内部表(管理表),分区表,桶表。分别对应不同的需求。下面主要讲解各种表的适用情形、创建和加载数据方法。二、具体内容1.内部表创建内部表和加载数据create table emp_inner(empno i...
转载
发布博客 2019.09.03 ·
249 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 动态分区

非常重要的动态分区属性:hive.exec.dynamic.partition 是否启动动态分区。false(不开启) true(开启)默认是 falsehive.exec.dynamic.partition.mode 打开动态分区后,动态分区的模式,有 strict和 nonstrict 两个值可选,strict 要求至少包含一个静态分区列,nonstrict则无此要求。各...
转载
发布博客 2019.09.03 ·
246 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark storm 反压

因特殊业务场景,如大促、秒杀活动与突发热点事情等业务流量在短时间内剧增,形成巨大的流量毛刺,数据流入的速度远高于数据处理的速度,对流处理系统构成巨大的负载压力,如果不能正确处理,可能导致集群资源耗尽最终集群崩溃,因此有效的反压机制(backpressure)对保障流处理系统的稳定至关重要。Storm和SparkStreaming都提供了反压机制,实现各不相同对于开启了ac...
转载
发布博客 2019.08.23 ·
156 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Streaming+Sparksql使用sql实时分析 rabbitmq+mongodb+hive

SparkConf sparkConf = new SparkConf()//此处使用一个链接切记使用一个链接否则汇报有多个sparkcontext错误 .setAppName("SparkConsumerRabbit") .setMaster("local[2]") .set("hive.metastore.uris", thrift) ...
转载
发布博客 2019.08.13 ·
315 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark和mapreduce的区别

spark和mapreduced 的区别map的时候处理的时候要落地磁盘 每一步都会落地磁盘 reduced端去拉去的话 基于磁盘的迭代spark是直接再内存中进行处理 dag 执行引擎是一个job的优化 将一个job话成很多快 分成多个task去跑任务 读取数据来源比喻亚马逊的s3 和hbase很广运行模式也有很多spark项目一般java 和scala 来写 pytho...
转载
发布博客 2019.08.06 ·
191 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala基本语法

scala基本语法scala函数1 def定义方法2 方法的返回值类型可以省略3 方法体重最后一行计算结果可以返回 return 如果省略方法类型4 方法参数 要指定类型5 如果方法体可以一步搞定 方法体中的{}可以省略6 定义方法=可以省略,省略之后,无论方法体重最后的计算结果是那些都会被丢弃二 递归函数三 有默认参数的函数四 可变长参数函数五 匿名函数 ()={}六 嵌套函数七 ...
转载
发布博客 2019.08.06 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

org.apache.spark.logging类报错

一,1 在使用spark读取kafka数据时,当spark升级到2.0之后,出现如上问题:之前遇到了,当时在工程里面添加了org.apache.spark.Logging类,能够运行。但是在后期使用过程中,又遇到了相同的问题,为了一劳永逸,今天彻底把问题解决。在项目下创建org.apache.spark.logging类将源码考入类中package org.apach...
转载
发布博客 2019.08.12 ·
1152 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hadoop各版本hadoop.dll和winutils.exe缺少这两个文件

1.1 缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries1.2 缺少hadoop.dllUnable to load native-hadoop library for your platform… using builtin-Java classes where...
转载
发布博客 2019.08.06 ·
1898 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Nginx搭建详细

Linux 安装Nginx搭建详细内容进入:/usr/java/nginx位置下载nginx: wget et http://nginx.org/download/nginx-1.8.0.tar.gz下载openssl : wget et http://www.openssl.org/source/openssl-fips-2.0.9.tar.gz下载zlib : wge...
转载
发布博客 2018.10.31 ·
105 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多