自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 关于窗口函数的使用

Hive 窗口函数在计算部分与整体之间的关系中常用到,可以达到简化SQL,减少Hive 执行计划产生的MR数。实列:1需求:统计各城市用户在总体的占比数据结构:「user_city」表中有两个字段「user_name」,「city」,表示用户姓名与所在城市分析:上述需求中明显需要统计每个「城市」的用户数与「所有用户数」,然后做商得到最终结果实现1:不适用窗口函数se...

2019-03-30 10:29:31 387

原创 Excel数据导入hive

Hive导入Excel数据并不能使用类似一键导入的开关,只能先将数据进行格式转换,hive中简表,load数据的方式。打开Excel并另存为.txt格式文本文档excel与text转换 上传文件到HDFS 根据excel中的数据结构进行建表,注意结构顺寻要一致 load数据到hive表中,load data inpath '/hdfs/file/a.txt' into table tab...

2019-03-11 17:04:48 3314

原创 Hive 脚本--转义,引号的使用

在Hive脚本中需要对保留字符进行转义且Hue窗口支持使用单引号与双引号,但是脚本中与Hue中的使用是有差别的转义字符:如下SQL,使用Hive中的函数进行字符串分割select split('hello;hive;sql;hadoop',';')[0]上述SQL在Hue窗口可以正常数据「hello」但是在Hive脚本中会报错org.apache.hadoop.hive...

2019-03-01 16:45:59 8847

原创 Spark递归读取文件夹 删除HDFS文件

在使用Spark 计算HDFS数据时会遇到整个文件夹文件读取,删除输出路径的需求,特此记录一次递归读取文件:sc .hadoopConfiguration .setBoolean("mapreduce.input.fileinputformat.input.dir.recursive", true)删除已存在的路径:def deleteOutPutPath(sc: Sp...

2019-03-01 15:51:56 2154

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除