- 博客(10)
- 资源 (25)
- 收藏
- 关注
转载 HDFS负载均衡问题
转载:http://www.thebigdata.cn/Hadoop/28910.htmlhadoop HDFS 负载均衡问题,在实际的数据开发中,由于受到cup、磁盘空间、内存容量甚至是网络开销限制。会出现集群的负载均衡问题负载均衡包括两方面:1.集群个主机之间的数据负载均衡2.某台主机内部的数据负载均衡问题Hadoop 分布式文件系统(Hadoop
2017-03-31 17:00:37 4483
原创 hive会产生大量的tmp文件
在实际的hive数据开发中,目录/tmp目录下产生大量文件数据,占用大量的磁盘空间。下面是cloudera官网给出解释:http://community.cloudera.com/t5/Storage-Random-Access-HDFS/Why-does-tmp-hive-admin-take-up-so-much-space/m-p/38863#
2017-03-31 15:54:14 6108
转载 hive group by distinct区别以及性能比较
Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧,但是好像平时很少关注这个去重的性能问题,但是当一个表的数据量非常大的时候,会发现一个简单的count(distinct order_no)这种语句跑的特别慢,和直接运行count(order_no)的时间差了很多,于是研究了一下。先说结论:能使用group by代替distinc就不要使用distinct,例子:实际论
2017-03-30 10:57:16 29433 18
转载 nvl,coalesce,decode,if用法及其区别
SQL中 nvl()、coalesce()、decode()这三个函数,如果只是判断非空的话,哪一个效率相比较高?nvl(bonus,0) 意思是 如果 bonus is null , 那么返回 0, 否则返回 bonuscoalesce(bonus,0,1) 意思是 返回 参数列表中, 第一个非 空的数据。也就是相当于, 如果 bonus is null , 那么返回 0, 否则返回
2017-03-30 08:42:32 3756
转载 SQL的各种连接(cross join、inner join、full join)的用法理解
SQL中的连接可以分为内连接,外连接,以及交叉连接 。1. 交叉连接CROSS JOIN如果不带WHERE条件子句,它将会返回被连接的两个表的笛卡尔积,返回结果的行数等于两个表行数的乘积;举例,下列A、B、C 执行结果相同,但是效率不一样:A:SELECT * FROM table1 CROSS JOIN table2B:SELECT * FROM tabl
2017-03-30 08:40:32 45792 5
原创 Hive实现自增列的两种方法
多维数据仓库中的维度表和事实表一般都需要有一个代理键,作为这些表的主键,代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列,但它也有一些对自增序列的支持,通常有两种方法生成代理键:使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。 假设有维度表tbl_dim和过渡表tbl_stg,现在要将tbl_stg的数据装载到t
2017-03-29 17:55:57 17782
原创 牛人的技术博客:http://shiyanjun.cn/archives/1497.html
http://shiyanjun.cn/archives/1497.html
2017-03-22 14:18:29 1038
原创 PLSQL显示乱码-无法进行中文条件查询解决
PL/SQL Developer 使用中文条件查询时无数据,这是由于字符集的不一致导致的。1、执行以下sql命令:select userenv('language') from dual;显示:AMERICAN_AMERICA.AL32UTF82、 设置本地环境变量。(PLSQL优先从环境变量中获取属性) 右击 我的电脑 -> 属性 -> 告警系统
2017-03-17 15:47:50 4201
转载 Hive优化—-控制hive任务的reduce数
转载:http://www.superwu.cn/?p=21231. Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)h
2017-03-14 09:30:10 4096
原创 查看集群文件使用状态hdfs dfs -du -h /hbase --max-depth=1
[root@]# hdfs dfs -du -h /hbase --max-depth=10 0 /hbase/.tmp755.6 M 5.2 G /hbase/WALs22.4 G 67.3 G /hbase/archive0 0 /hbase/corrupt32.6 G 99.2 G /hbase/dat
2017-03-09 18:20:10 4501
wireshark-v3.4.2.zip
2021-04-20
shell脚本案例-俄罗斯方块
2021-03-01
gsoap2.8.11&2.8.1双版本.txt
2021-02-05
gsoap2.8.11离线安装包
2021-02-05
yum离线安装包(真实有效)
2021-02-05
PERL/NASM安装包(exe)工具以及openssl-1.1.1-pre5.tar.gz
2020-11-03
NVIDIA-Linux-x86_64-418.88.run
2020-09-02
Ubuntu16.04 openssh安装包
2020-07-16
全栈性能java网络爬虫从入门到精通实战.pdf
2020-05-26
Ubuntu操作系统ssh安装包
2020-05-25
qt-opensource-linux-x64-5.7.1.run
2020-03-26
qt-opensource-linux-x64-5.5.1.run
2020-03-26
curl-7.49.0.tar.gz
2020-03-26
libevent-2.0.21-stable.tar.gz
2020-03-26
Linux libevent2.1安装包
2020-03-26
redis505.rar
2020-03-04
支持VMWare Esxi6.7虚拟机操作系统,VMware-ovftool-4.3.0.x86_64。用于企业大容量(20G亲测)OVF导出.txt
2019-11-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人