![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
bigdata
Hellooorld
这个作者很懒,什么都没留下…
展开
-
spark调优-JVM调优+Shuffle调优
JVM调优:1 降低cache操作的内存占比 spark中,堆内存又被划分成了两块,一块是专门用来给RDD的cache、persist操作进行RDD数据缓存用的。另外一块用来给spark算子函数的运行使用的,存放函数中自己创建的对象。默认情况下,给RDD cache操作的内存占比,是0.6,60%的内存都给了cache操作了。但是问题是,如果某些情况下c...原创 2018-11-13 09:16:26 · 187 阅读 · 0 评论 -
Redis入门一下
分析一下我理解中的Redis,如果有误,还望指出来大家互相交流出现的目的:解决企业高并发,高可用,高拓展,等问题而产生出来的解决方案,就是Nosql,其中nosql分为好多种,redis只是其中一个.介绍Redis是一个NoSQL数据库,是一个以key-value存储形式存储的数据库,是基于内存的,所以他的访问速度很快,还有很多JavaAPI以供使用,redis种有5种数据类型...原创 2018-11-12 20:41:36 · 92 阅读 · 0 评论 -
广播变量Broadcast2种实现方式,以及开发中遇到的坑
首先,介绍2中 我在开发过程中实现广播变量时用了2中方式:1. 使用mapPartitions循环每个分区 里面套一个for循环 进行遍历quzhi,使用yield进行返回(因为for循环不支持返回),当然了这是根据业务需要,你也可以不返回,看业务2.同样使用mapPartitions循环每个分区,只不过里面使用map进行循环 其实跟第一种大差不差, 推荐第二种区别第二种...原创 2019-04-16 16:10:05 · 1128 阅读 · 0 评论 -
Hive存储格式跟压缩对比(各种技术都在这里)
存储:1 TextFile2 SequenceFile3 RCFile4 OrcFile5 Parquet6 Avro6种性能测试textfile默认格式;存储方式为行存储;磁盘开销大 数据解析开销大;但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。SequenceFile二进制文件,以<key,va...原创 2019-06-01 13:46:39 · 2353 阅读 · 0 评论 -
CDH5.8.0安装(centos6.5)超详细
基本配置Hadoop3台节点master 192.168.244.145slave1 192.168.244.146slave2 192.168.244.1471.关闭防火墙打开文件selinux:vi /etc/sysconfig/selinux修改SELINUX属性值修改如下:SELINUX=disabledchkconfig iptables offreboot查...原创 2019-06-16 20:52:44 · 558 阅读 · 0 评论 -
Presto行转列 列转行
hive中表结构如下: CREATE TABLE hive.default.t1 ( day integer, days integer ) 查看数据presto:default> select * from t1; day | days -----+------ 1 | 1 ...原创 2019-06-17 14:16:08 · 10043 阅读 · 0 评论