- 博客(76)
- 收藏
- 关注
转载 spark join 的三种实现方式
https://www.cnblogs.com/duodushuduokanbao/p/9911256.html
2022-03-14 11:40:42 373
转载 Hive中UDF、UDTF 、UDAF函数详解及示例
https://blog.csdn.net/qq_40579464/article/details/105903405
2021-03-23 17:01:14 286
转载 Mac Git 学习教程 之 本地项目代码上传到GitHub
https://jingyan.baidu.com/article/636f38bb9747d1d6b84610f3.html
2021-03-11 15:39:25 90
转载 Hive UDF整理
转载:https://my.oschina.net/repine/blog/193867字符串函数字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from dual;7字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:hive> select reverse(‘ab
2021-03-04 19:35:19 189 2
原创 用sort_array函数解决collet_list列表排序混乱问题
由collect_list形成的列表经过concat_ws拼接后顺序具有随机性,要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可,示例如下:SELECT memberid, regexp_replace( concat_ws('-', sort_array( collect_list(
2021-03-04 19:16:58 1028 1
转载 MAC搭建Python开发环境
https://blog.csdn.net/zhou1225283915/article/details/80034328
2019-11-25 14:19:20 201
转载 图解Mac下MySQL下载及安装
https://blog.csdn.net/youzhouliu/article/details/80782892
2019-11-21 11:18:50 201
原创 使用secureCRT连接mac的本地终端
1、首先需要启动MAC的sshd服务:打开mac的命令终端,执行:sudo launchctl load -w /System/Library/LaunchDaemons/ssh.plist2、停止sshd服务的方法:在mac的终端执行:sudo launchctl unload -w /System/Library/LaunchDaemons/ssh.plist3、查看sshd服务是否启...
2019-11-20 17:52:00 719
原创 Hdfs block数据块大小的设置规则
Hdfs block数据块大小的设置规则1.概述hadoop集群中文件的存储都是以块的形式存储在hdfs中。2.默认值从2.7.3版本开始block size的默认大小为128M,之前版本的默认值是64M.3.如何修改block块的大小?可以通过修改hdfs-site.xml文件中的dfs.blocksize对应的值。注意:在修改HDFS的数据块大小时,首先停掉集群hadoop的运行...
2019-06-28 16:12:28 2515
原创 如何将hive的数据表导出到csv格式的文件中
由于在hive hue web页面上无法全部展示比较大的数据,并且就算导出到excel中也会对服务器产生特别大的压力。所以就需要将hive数据表的数据导出以csv形式的存储!hive -e “select * from dhtest.temp_uv” >> res1.csv将需要的查询数据导出到 res1.csv[hdfs@datanode11 wangchong]$ hive ...
2019-06-24 13:43:39 5208
原创 spark性能优化
Spark实践经验和Spark原理为依据调优sparkhttp://www.aboutyun.com/forum.php?mod=viewthread&tid=20451Spark性能优化的10大问题及其解决方案http://www.aboutyun.com/forum.php?mod=viewthread&tid=12676Spark之性能优化http://www.ab...
2019-06-19 18:52:16 154
转载 正则表达式学习
本篇文章文字内容较多,但是要学习正则就必须耐心读下去,正则表达式是正则表达式其实并没有想像中的那么困难,但是想要熟练的掌握它,还是需要下功夫勤加练习的。这里讲一些正则表达式的语法和学习方法,大家还要多参考前辈们写的正则表达式,才能达到熟练精通的地步。一、正则表达式到底是什么东西? 正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、...
2019-06-18 16:36:31 162
转载 Hive map和reduce个数的设置
hive优化的几种情况目标就是每个map,reduce数据处理量要适当1.hive小文件很多,造成map个数很多,需要减少map个数set mapred.max.split.size=100000000;set mapred.min.split.size.per.node=100000000;set mapred.min.split.size.per.rack=100000000;se...
2019-06-12 14:49:16 1075
原创 自己设置mapreduce程序的map个数和reduce个数
设置reduce个数(一个reduce生成一个文件)1、如果不指定reduce个数,hive会基于一下两个参数自动计算(1)hive.exec.reducers.bytes.per.reducer这是每个reduce处理的数据量,默认为1G=1000000000(2)hive.exec.reducers.max(每个任务的最大reduce个数,默认1009)reduce个数=min(参数...
2019-06-11 20:43:35 3171
原创 从一个经典案例看优化mapred.map.tasks的重要性
我所在公司所使用的生产Hive环境的几个参数配置如下:dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2因为合并小文件默认为true,而dfs.block.size与hive.merg...
2019-06-11 17:12:20 2121
转载 Hive中压缩使用详解与性能分析
https://blog.csdn.net/qq_26442553/article/details/85766558
2019-06-06 10:53:57 393
转载 REGEXP_REPLACE 函数
https://blog.csdn.net/gxftry1st/article/details/22489275
2019-06-05 15:22:00 488
转载 hive中的lateral view 与 explode函数的使用
https://blog.csdn.net/guodong2k/article/details/79459282
2019-06-04 15:04:36 246
转载 hive表信息查询:查看表结构、表操作等
转自:http://www.aboutyun.com/forum.php?mod=viewthread&tid=8590&highlight=hive问题导读:1.如何查看hive表结构?2.如何查看表结构信息?3.如何查看分区信息?4.哪个命令可以模糊搜索表1.hive模糊搜索表show tables like ‘name’;2.查看表结构信息desc form...
2019-05-28 11:00:29 5687
原创 python编程中的if __name__ == 'main': 的作用和原理
在大多数编排得好一点的脚本或者程序里面都有这段if name == ‘main’: ,虽然一直知道他的作用,但是一直比较模糊,收集资料详细理解之后与打架分享。1、这段代码的功能一个python的文件有两种使用的方法,第一是直接作为脚本执行,第二是import到其他的python脚本中被调用(模块重用)执行。因此if name == ‘main’: 的作用就是控制这两种情况执行代码的过程,在if...
2019-05-17 10:28:24 365
转载 Python中 sys.argv[]的用法简明解释
https://www.cnblogs.com/aland-1415/p/6613449.html
2019-05-16 17:38:48 136
原创 crontab文件的含义
用户所建立的crontab文件中,每一行都代表一项任务,每行的每个字段代表一项设置,它的格式共分为六个字段,前五段是时间设定段,第六段是要执行的命令段,格式如下:minute hour day month week command其中:minute: 表示分钟,可以是从0到59之间的任何整数。hour:表示小时,可以是从0到23之间的任何整数。day:表示日期,可以是从1到31之间的任何...
2019-05-16 15:48:50 918
转载 mongodb数据以json的形式写入hive再ETL
2018年09月23日 16:49:17 sky-mz 阅读数:114mongodb数据以json的形式写入hiveCDH为6.0.01、http://www.congiu.net/hive-json-serde/1.3.8/cdh5/json-serde-1.3.8-jar…> 02-May-2017 11:18 83Kjson-udf-1.3.8-jar-w…> 02-M...
2019-05-16 11:56:17 525
原创 为什么上班只是坐着,一天下来还是觉得好累?
其实关于这个问题,很多人肯定想过为什么,今天让我们一起来解密。为什么上班只是坐着,还是会觉得累:你觉得上班疲惫不堪但又说不出个所以然,根本原因在于:你其实心里很清楚你每天做的事情毫无意义。以前魔兽世界流行的时候每个地方都有很多那种网吧男孩,他们可以啃白面包,喝矿泉水,窝在毫无人体工程学设计的破椅子上熬上几个星期,每天超过 15 个小时下副本,只是为了一把橙色武器。他们一样也是「在电脑前一坐不...
2019-05-07 18:20:25 230
原创 Sqoop-将MySQL数据导入到hive orc表
sqoop创建并导入数据到hive orc表复制代码sqoop import –connect jdbc:mysql://localhost:3306/spider –username root --password 1234qwer –table org_ic_track --driver com.mysql.jdbc.Driver –create-hcatalog-table –...
2019-05-06 18:37:12 2105
原创 Linux文件夹文件创建、删除
Linux文件夹文件创建、删除Linux删除文件夹命令 linux删除目录很简单,很多人还是习惯用rmdir,不过一旦目录非空,就陷入深深的苦恼之中,现在使用rm -rf命令即可。直接rm就可以了,不过要加两个参数-rf 即:rm -rf 目录名字删除目录、文件 rm(remove)功能说明:删除文件或目录。语 法:rm [-dfirv][–help][–version][文件或目...
2019-05-05 18:24:19 111
转载 Sqoop教程(一) Sqoop数据迁移工具
https://blog.csdn.net/yuan_xw/article/details/51553451
2019-05-05 18:07:54 164
原创 Sqoop import加载Hive过程中,遇到Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:dr
Sqoop import加载Hive过程中,遇到Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x在执行hive sqoop抽取的时候,遇到了一个错误,如下图:在执行程序的过程中,遇到权限问题很正常,也容易让人防不胜防,有问题就想办法解决,这个是关键。解决办法如下:第一步...
2019-05-05 18:05:55 7728 1
原创 sqoop组件运行出错问题解决--com.mysql.jdbc.Driver
sqoop list-tables --connect jdbc:mysql://192.168.11.94:3306/huochetoudalian --username xxx -password xxxWarning: /opt/cloudera/parcels/CDH-5.0.2-1.cdh5.0.2.p0.13/bin/…/lib/sqoop/…/accumulo does not e...
2019-05-05 14:49:09 1008
转载 sqoop详解
一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。三 Sqoop 命令Sqoop大...
2019-05-05 14:26:17 547
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人