- 博客(4)
- 收藏
- 关注
原创 关于窗口函数的使用
Hive 窗口函数在计算部分与整体之间的关系中常用到,可以达到简化SQL,减少Hive 执行计划产生的MR数。实列:1需求:统计各城市用户在总体的占比数据结构:「user_city」表中有两个字段「user_name」,「city」,表示用户姓名与所在城市分析:上述需求中明显需要统计每个「城市」的用户数与「所有用户数」,然后做商得到最终结果实现1:不适用窗口函数se...
2019-03-30 10:29:31 387
原创 Excel数据导入hive
Hive导入Excel数据并不能使用类似一键导入的开关,只能先将数据进行格式转换,hive中简表,load数据的方式。打开Excel并另存为.txt格式文本文档excel与text转换 上传文件到HDFS 根据excel中的数据结构进行建表,注意结构顺寻要一致 load数据到hive表中,load data inpath '/hdfs/file/a.txt' into table tab...
2019-03-11 17:04:48 3314
原创 Hive 脚本--转义,引号的使用
在Hive脚本中需要对保留字符进行转义且Hue窗口支持使用单引号与双引号,但是脚本中与Hue中的使用是有差别的转义字符:如下SQL,使用Hive中的函数进行字符串分割select split('hello;hive;sql;hadoop',';')[0]上述SQL在Hue窗口可以正常数据「hello」但是在Hive脚本中会报错org.apache.hadoop.hive...
2019-03-01 16:45:59 8847
原创 Spark递归读取文件夹 删除HDFS文件
在使用Spark 计算HDFS数据时会遇到整个文件夹文件读取,删除输出路径的需求,特此记录一次递归读取文件:sc .hadoopConfiguration .setBoolean("mapreduce.input.fileinputformat.input.dir.recursive", true)删除已存在的路径:def deleteOutPutPath(sc: Sp...
2019-03-01 15:51:56 2154
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人