自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 操作hive表的时候报错:权限不够等权限问题,以及如何修改hive表的权限。

我们一般在公司中进行hive上面的表的操作的时候, 经常会碰见权限不够的问题:上面这些错误就是说明我们当前用户的权限不够了。这个时候,你要通知一些有管理员权限的人员或者账号去赋权。具体操作步骤如下:例子: 假设我用的是test用户1 show create table xx你的表名xx然后你会得到下面的信息CREATE TABLE `tablename`( `month_id` string COMMENT '', `day_id` string, `part_id` str

2020-12-28 16:17:33 5614

原创 Hive 和 Oracle 数据之间的迁转(不用第三方工具),工作中数据从hive到数据库的总结。

Hive 和 Oracle 数据之间的迁转(不用第三方工具)场景: hive的数据加工完成,需要导入oracle 。1 使用shell 重定向把查询出来的数据落地成文件hive 导出文件 : hive -e "select colum1 , colum2 , colum3 ,

2020-12-25 16:08:15 622

原创 Hive 中时间,日期函数操作等总结

Hive 中时间,日期函数操作等的总结:1 获取当前时间 unix_timestamp()返回值: bigint说明: 获得当前时区的UNIX时间戳例子:hive (dwa)> select unix_timestamp();OK16087990472 格式化时间 from_unixtime(timestamp,‘formatString’)返回值: string说明: 把UNIX时间戳转换成你想要的格式 , 默认是 yyyy-MM-dd HH:mm:ss例子1 :

2020-12-24 20:24:42 446 1

原创 Java中的单例模式- 饿汉式和懒汉式 以及Scala中的单利模式-

首先: 单利模式就是一个类,只允许创建一个对象。Java:实现方式一 饿汉式 //饿汉式 : 初始化类的时候, 就创建一个对象 static class Singleten1{ //构造方法 private Singleten1(){ } private static final Singleten1 instance = new Singleten1(); //提供给外部的接口 public stati

2020-12-21 13:40:18 185

原创 Oracle和Hive交互中的字符问题解决:

Oracle和Hive交互中的字符问题解决:一句话解决:REPLACE(REPLACE(REPLACE(REPLACE(TRIM(XXX_String),CHR(9), ‘’), CHR(10),’’), CHR(13), ‘’),CHR(41377), ‘’) XXX_String解释:具体就是把一些特殊字符替换为’’ 在oracle中, 常见的字符有这么几个:chr(9) tab空格 chr(10) 换行 chr(13) 回车 chr(32) 空格符把这些

2020-12-21 10:45:11 495

转载 Hive所有的配置总结 转载

hive的配置:hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置;hive.exec.script.wrapper:hive调用脚本时的包装器,默认是null,如果设置为python的话,那么在做脚本调用操作时语句会变为python hive.exec.plan:hive执行计划的文件路径,默认是null,会在运行时自动设置,形如hdfs://xxxx/xxx/xx;hive.exec.scratch

2020-11-23 15:44:48 899 1

原创 关于 Shell 脚本中 日期函数使用的一些坑 !生产中实际产生的问题!!记录 : 【date -d “$v_data_date -1 months】

今天在实际生产中发现了一个严重的问题, 最终确定的原因是因为Shell中关于日期函数使用的时候不注意产生的!!看代码:```bash# 得到当前日期的上一个月v_pre_month = ' date -d "$v_data_date -1 months '这个代码看似没有问题, 正常是日期都是能到正确的结果例子 输入: 20201105 输出: 202010 但是!!!echo `date -d "20201031

2020-11-05 17:32:34 906

转载 RDD与广播变量、累加器 (转载)

https://www.cnblogs.com/frankdeng/p/9301653.html

2020-08-28 16:51:47 108

原创 Spark Streaming中序列化问题:org.apache.spark.SparkException: Task not serializable和对foreachRDD的一些总结

其实官网上面已经指明的这个错误了!!!! 甚至还给出了解决方法官网文档但是我自己又通俗的总结了一些:dstream.foreachRDD { rdd =>val connection = createNewConnection() // executed at the driverrdd.foreach { record =>connection.send(record) // executed at the worker}}官网上面说了connection

2020-08-14 10:44:23 448

原创 SparkStreaming中关于带状态的算子updateStateByKey算子和CheckPoint的使用

updateStateByKey算子和CheckPoint的使用题应用场景以词频统计为例,一个简单的词频只会分析出当前这一个批次的单词数,也就是说:第一次输入 a a a b 会输出 ( a,3 b,1 );第二次输入 a a a b 还是会输出 ( a,3 b,1 );可是更多的应用场景是需要把这些数据累加起来,就是让他输出 ( a,6 b,2 )其实这个也好实现,方法一: 你可以借用Mysql,在每一次得到输入的参数的时候,去Mysql中找到对应的数据, 进行累加,再写回Mysq

2020-08-14 10:11:14 367

原创 Kudu报错:你的主机中的软件终止了一个已建立的链接 unexpected exception from downstream on

Kudu报错:你的主机中的软件终止了一个已建立的链接 unexpected exception from downstream onwindows 系统操作KUDU 发现报错,于是上网发现要修改host文件在 C:\Windows\System32\drivers\etc\hosts 下面给hosts 加上一行192.168.xxx.xxx spark000然后 ping spark01 也通了可以 ,还是报错!!!于是去KUDU 的日志文件里面找http://spark000:8

2020-07-20 15:08:23 838

原创 windows 本地 IDEA ,Spark 远程访问 Hive 并写回 。

windows 本地 IDEA ,Spark 远程访问 Hive 并写回 。Scala 代码 def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder().master("local") .appName("testApp") .config("spark.sql.warehouse.dir","hdfs://user/hive/warehouse")

2020-07-17 15:55:24 364

原创 安装完Sqoop后输入Sqoop version 提示 找不到或无法加载主类 org.apache.sqoop.sqoop

解决方法去这个网址:http://archive.apache.org/dist/sqoop/1.4.4/下载这个:sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz然后,里面有个这个:sqoop-1.4.4.jar解压出这个放到这里面:hadoop/share/hadoop/mapreduce/lib就行了...

2020-06-12 20:15:33 2076

原创 Scala中的高阶函数总结(map,filter,reduce,fold,flatten)等

Scala中的高阶函数总结(filter,reduce,fold,flatten)等map 函数就是对集合每一个元素都遍历操作,有点像数学里面的 y = f(x);例子:println(l.map((x:Int)=> x2)) //List(2, 6, 10, 14) 注意,原List没变println(l.map(x=> x2)) //List(2, 6, 10, 14) 如果只有一个元素,可以不加括号println(l.map(_*2

2020-06-11 08:55:01 739

原创 用Scala语言完成一个简单的词频统计- Word Count;新手入门案例,原创!!

用Scala语言完成一个简单的词频统计- Word Count;新手入门案例 !!代码先准备一个简单的数据:路径:C:\Users\Administrator\Desktop\work\hello.txt内容:hello world hello world hello world hello world然后用Scala 完成对这个文件的词频统计 内容如下:def main(args: Array[String]) {/** 非常非常好看,易懂,每秒,原创的注释* 1 :List(t

2020-06-11 08:49:47 1828

原创 string.split()过滤一个或者多个空格或者字符问题

string.split()过滤一个或者多个空格或者字符问题在学习MapReduce过程中,用到了字符串的拆分,遇到了一些问题,做总结我的问题**一个字符串 String s = “a b b c d”;是这个样子的 [a][ ][b][ ][ ][ ][b][ ][c][ ][d] 这个里面有一个空格和多个空格的形式这里不一定是空格,其他的字符也可以1 简单的拆分: String s = "a b b c d"; String[ ] sA

2020-05-23 20:19:13 2249

原创 org.apache.hadoop.io.nativeio.NativeIOWindows.createDirectoryWithMode0解决方案

org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;)解决方案在学习MapReduce过程中,本地运行代码的时候出现了上面所说的错误。再次记录一下解决过程:我的版本Linux:hadoop 2.6windows: hadoop 2.6问题问题就出在我的这个版本2.6上!!!!!想在windows上运行代码需要在windows上安装hadoop 2.7以上的版本。我的

2020-05-23 20:00:49 1119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除