CDH5.8.0安装(centos6.5)超详细

基本配置Hadoop 3台节点 master 192.168.244.145 slave1 192.168.244.146 slave2 192.168.244.147 1.关闭防火墙 打开文件selinux:vi /etc/sysconfig/selinux 修改SELINUX属性值修改如...

2019-06-16 20:52:44

阅读数 1

评论数 0

数据立方体

总体介绍 首先模拟一个数据分析场景,某企业积累了如下表格所示的销售数据: 产品销售数据表 表格中每一行表示某个时间段内某种商品在某个地区的销售情况。很明显,这些数据涉及到了时间、地区、产品三个业务角度。 在对这样的数据进行分析时,不同的角色都会基于自己所感兴趣的业务角度提出问题 销售经理...

2019-06-13 16:50:59

阅读数 8

评论数 0

Presto优化

https://blog.csdn.net/FreeFishLy/article/details/79081764很详细写的

2019-06-13 16:49:20

阅读数 4

评论数 0

Hive存储格式跟压缩对比(各种技术都在这里)

存储: 1 TextFile 2 SequenceFile 3 RCFile 4 OrcFile 5 Parquet 6 Avro 6种性能测试 textfile 默认格式; 存储方式为行存储; 磁盘开销大 数据解析开销大; 但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行...

2019-06-01 13:46:39

阅读数 12

评论数 0

广播变量Broadcast2种实现方式,以及开发中遇到的坑

首先,介绍2中 我在开发过程中实现广播变量时用了2中方式: 1. 使用mapPartitions循环每个分区 里面套一个for循环 进行遍历quzhi,使用yield进行返回(因为for循环不支持返回),当然了这是根据业务需要,你也可以不返回,看业务 2.同样使用mapPartitions...

2019-04-16 16:10:05

阅读数 23

评论数 0

Hive优化 + 数据倾斜 +典型案例

优化 1、Fetch抓取 hive.fetch.task.conversion 设置成 more 执行一些limit,select 单个字段不会跑mr程序 2、本地模式 hive.exec.mode.local.auto 的值为 true 3、表的优化 3.1、老版本hive,把数据小...

2019-01-21 20:32:44

阅读数 45

评论数 0

Spark-Core源码精读(3)、Stage划分算法

Spark中对RDD的操作大体上可以分为transformation级别的操作和action级别的操作,transformation是lazy级别的操作,action操作(count、collect等)会触发具体job的执行,而每个job又会被划分成一个或者多个Stage,后面的Stage会依赖前...

2019-01-13 14:01:07

阅读数 55

评论数 0

Spark-Core源码精读(2)、Master中的schedule详解

首先,上篇给大家介绍了spark中master,跟work的启动并注册源码之后,说明集群已经启动成功了,本篇来向大家介绍下spark中application提交到集群中的master资源调度源码,是怎么资源调度的,然后work上面的Driver跟work进程是怎么启动并开始工作的,好了,废话不多说...

2019-01-05 21:02:08

阅读数 48

评论数 0

Spark-Core源码精读(1)、从start-all脚本到Master、work源码启动分析

首先来到这里的同学应该都学了spark相关知识,对于master跟work的启动注册源码感兴趣的可以往下看看 master的启动注册机制 首先看一下start-master.sh脚本 这是最后一行代码,可见他去调用了spark-daemen。Sh,传了一个参数class 然后进入s...

2018-12-30 00:15:34

阅读数 54

评论数 0

Spark中topN和分组求topN的算法

1、对于第一个求topN代码如下: 原始数据 /** * 对文本文件内的数字,取最大的前3个 */ object TopN { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppN...

2018-12-27 19:51:57

阅读数 80

评论数 0

idea 2018注册码(激活码)永久性的

(最新的看后面!!!    转载的请附上原文链接   搜索不易!) 百度的,上一个没用多久就挂了,这次用http://idea.toocruel.net    激活方式:License Server 1、将地址 http://active.chinapyg.com/ 或者 http://i...

2018-12-25 09:39:48

阅读数 3427

评论数 0

es 安装了X-pack后,再次安装head并启动的时候连接集群报错

1、首先确保es集群开启无误, 2、使用head访问es报错(F12打开都是错,) 3、原因:因为配置了x-pack,有账户密码,所以head访问不了es集群 4、解决: 在es的安装目录下,修改vi config/elasticsearch.yml 增加如下代码 http.cors.enab...

2018-12-24 14:49:44

阅读数 141

评论数 0

谈谈RDD、DataFrame、Dataset的区别和各自的优势

在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性: 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 2、三者都有惰性机制,在进行创建、转换...

2018-12-22 16:08:05

阅读数 30

评论数 0

Azkaban安装和使用实例

Azkaban安装 1、准备工作 Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.gz MySQL 目前azkaban只支持 mysql,需安装...

2018-12-21 20:47:13

阅读数 46

评论数 2

CentOS-7设置开机进入命令行界面(不进入图形界面)

[root@localhost ~]# systemctl get-default graphical.target [root@localhost ~]# systemctl set-default multi-user.target Removed symlink /etc/systemd/...

2018-12-21 13:33:36

阅读数 428

评论数 0

hadoop写MR程序报错java.lang.AbstractMethodError: org.apache.hadoop.yarn.api.records.LocalResource.setShou

情况:在本地书写mapreduce的时候,运行driver类 开始跑任务的时候,有时候可能会报 java.lang.AbstractMethodError: org.apache.hadoop.yarn.api.records.LocalResource.setShouldBeUploadedT...

2018-12-07 20:03:04

阅读数 191

评论数 1

MR读Hbase数据,写入到Mysql(HBase->Mysql)

首先看一下Hbase的数据 ,本系统将Hbase放入mysql 首先看一下hbase表结构 需求:根据用户在hbase的通话记录,求出每个用户每个月总共通话时间,放入mysql中 第一步、建立mapper端 package phoneXM; import org.apache.hadoop....

2018-12-07 19:35:59

阅读数 212

评论数 0

kafka启动报错-XX:+CMSClassUnloadingEnabled -XX:+CMSScavengeBeforeRemark -XX:+DisableExplicitGC -

启动kafka的时候报错,查看错误log显示如下 Java HotSpot™ 64-Bit Server VM (25.152-b16) for linux-amd64 JRE (1.8.0_152-b16), built on Sep 14 2017 02:16:14 by “java_re” ...

2018-12-05 20:27:53

阅读数 152

评论数 0

nginx 启动报错 “/var/run/nginx/nginx.pid" failed” 解决方法

问题:   重启虚拟机后,再次重启nginx会报错: open() "/var/run/nginx/nginx.pid" failed (2: No such file or directory) 解决方法:   (1)进入 cd /usr/local/n...

2018-12-04 19:49:59

阅读数 54

评论数 0

Hive企业级优化

一、Fetch抓取 Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如: SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。 在 hive-de...

2018-12-03 16:33:52

阅读数 47

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭