![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
trista0929
这个作者很懒,什么都没留下…
展开
-
Hadoop Shell命令
FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一转载 2017-11-01 17:27:42 · 337 阅读 · 0 评论 -
HIVE常用优化参数
常用MapReduce作业配置参数可在客户端的mapred-site.xml中配置,作为MapReduce作业的缺省配置参数。也可以在作业提交时,个性化指定这些参数。常见问题及参数设置1、提交作业java.lang.OutOfMemoryError: Java heap space 或者长时间提交不了集群jobos.environ[“HADOOP_CLIENT_OPTS”]="-Xmx1...原创 2019-07-09 16:22:41 · 4134 阅读 · 0 评论 -
hive开发规范
一、 建表规范:Hiive分为内部表和外部表,一般情况,只允许建外部表,不建议使用内部表。LZO标准建表模板如下所示:create EXTERNAL table app_sku_pur_attrib (stat_dt string comment ‘统计日期’ ,ord_item_units double comment ‘下单商品件数’,valid_ord_qtty ...原创 2019-07-09 16:17:00 · 1223 阅读 · 0 评论 -
hive的UDF读取配置文件
hive的UDF读取配置文件实现步骤在读取配置文件的写为./file_name,然后在添加UDF的时候把配置文件也加入资源就好了:add jar xxx.jar;add file file_name;create temporary function xxx as xxx;转载:https://blog.csdn.net/weixin_34259159/article/details...转载 2019-04-15 13:41:34 · 2507 阅读 · 0 评论 -
Hive解析Json数据
HIVE直接读入json的函数有两个:(1)get_json_object(string json_string, string path)返回值: string说明:解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效,那么返回NULL。举例:hive> select get_json_object(‘{“store”:{“fruit...转载 2019-04-17 14:15:10 · 2009 阅读 · 0 评论 -
hive sql给查询结果加上一列序号
现有一个表student:select * from student;然后加上一列序号:select row_number() over(partition by 1) as xuhao,a.*from student a;得到结果:转载自:https://blog.csdn.net/qq_40477943/article/details/81873293...转载 2019-04-08 12:23:47 · 5559 阅读 · 0 评论 -
Hive--数据去重及row_number()
distinct会整条数据去重,有一项是不同的整条数据就算不同的,不会去掉,按照某一个字段去重需要如下方法hive数据去重,并根据需求取其中一条数据案例:name adx tran_id cost tsck 5 125.168.10.0 33.00 1407234660ck ...转载 2019-04-10 18:23:47 · 3513 阅读 · 0 评论 -
hive函数 -- regexp_extract
函数描述:regexp_extract(str, regexp[, idx]) - extracts a group that matches regexp字符串正则表达式解析函数。– 这个函数有点类似于 substring(str from ‘regexp’) …参数解释:其中:str是被解析的字符串regexp 是正则表达式idx是返回结果 取表达式的哪一部分 默认值为1。...转载 2019-03-22 17:25:58 · 1542 阅读 · 0 评论 -
hive函数—— regexp_replace的用法,替换特殊字符问题
数据仓库中有的字段不合格,有特殊字符,比如换行符。poi_name\n19013\n12013regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)Returns the string resulting from replacing all substrings in INITIAL_STRI...转载 2019-03-22 17:24:01 · 30254 阅读 · 2 评论 -
hive行转列 (Lateral View explode())
原始数据:test.txta b 1,2,3c d 4,5,6方案:drop table test_jzl_20140701_test;create table test_jzl_20140701_test(col1 string,col2 string,col3 string)row format delimi...转载 2019-03-22 17:20:01 · 1796 阅读 · 0 评论 -
Hive UDTF开发指南
之前说过HIVE,UDF(User-Defined-Function)函数的编写和使用,现在来看看UDTF的编写和使用。1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.ud...转载 2019-03-03 11:24:25 · 620 阅读 · 0 评论 -
MapReduce程序服务器部署
1、eclipse maven打包 maven–>update project run as –>maven clean run as –>maven install 选择target目录下带有with dependencies的jar包 2、将jar包放置到hdfs目录下 3、hadoop jar <你的jar包路径及名称>注:程序中所用的路径,要根据core-site.xml配置文件原创 2017-12-18 10:09:40 · 553 阅读 · 0 评论 -
eclipse配置hadoop2.6.1开发环境并本地跑起来
先安装并启动hadoop,怎么弄见上文http://blog.csdn.net/ABCDEFG0929/article/details/78770246。这里说下怎么设置IDE来开发hadoop代码和调试。首先要确保你本地装了eclipse,再下个eclipse的hadoop插件就完事了。下面细说一下: 1、下载eclipse插件(hadoop-eclipse-plugin-2.6.1.jar)转载 2017-12-11 11:01:24 · 491 阅读 · 0 评论 -
windows下安装并启动hadoop2.6.1
64位windows安装hadoop没必要倒腾Cygwin,直接解压官网下载hadoop安装包到本地->最小化配置4个基本文件->执行1条启动命令->完事。一个前提是你的电脑上已经安装了jdk,设置了java环境变量,本人用的是jdk1.7.0_15。下面把这几步细化贴出来,以hadoop2.6.1为例 1、下载hadoop安装包就不细说了:https://archive.apache.org/d转载 2017-12-11 10:37:06 · 2555 阅读 · 0 评论 -
Spark常用参数解释及建议值
4.6.3 Spark常用参数解释及建议值spark的默认配置文件位于堡垒机上的这个位置: $SPARK_CONF_DIR/spark-defaults.conf,用户可以自行查看和理解。需要注意的是,默认值优先级最低,用户如果提交任务时或者代码里明确指定配置,则以用户配置为先。 用户再理解参数含义的基础上,可根据具体任务情况调整参数。以下常用参数配置均可以通过 --conf XXX=Y ...原创 2019-07-23 14:38:57 · 941 阅读 · 1 评论