大数据
文章平均质量分 89
董云龙
这个作者很懒,什么都没留下…
展开
-
Apache Kylin权威指南 1.5版本 笔记
1.概述 (p21-32) :(1) 数据表或者数据模型上所有字段只有两种分类: 维度或者度量, 度量可以被聚合 .是数据分析中的两个基本概念.维度指审视数据的角度, 通常是数据记录的一个属性,例如时间,地点等.度量是基于数据所计算出来的考量值,通常是一个数值, 如总销售额,用户数等. 在一个sql中, GROUP BY的属性通常就是维度, 而所需要计算的值就是度量原创 2017-08-09 19:38:08 · 1282 阅读 · 0 评论 -
Hadoop之CDH安装
1. 离线数据存储及查询环境部署离线数据的存储与查询主要是以hadoop为中心的技术栈,包括hive,hbase,hue,kylin等。部署hadoop的方式比较流行的主要有三种: 1. 直接部署Apache Hadoop,即手工部署,需要自己配置,协调版本兼容等,好处是能够加深理解,但是过程较繁琐。 2. Ambari :Hortonworks的产品,用于创建,管理,监视hadoop集群...原创 2018-03-30 12:14:51 · 22780 阅读 · 1 评论 -
机器学习之LDA降维
1. PCA缺点在上篇介绍PCA的文章中有一句话是: PCA是一种能够极大提升无监督特征学习速度的数据降维算法这里很明显的说明,PCA适用于非监督学习的数据降维,显而易见,在进行数据降维的时候,我们并没有考虑数据的类别信息,仅仅是针对数据的特征来进行学习.当已知数据的类别时,在某些情况下,PCA的效果将会非常差.例如: 如上图所示,如果使用PCA进行降维,将会映射到Y轴上(...原创 2018-03-25 09:51:57 · 2581 阅读 · 0 评论 -
Kafka之基础笔记
1. kafka offset 存储1.1 去zookeeper依赖比较广为人知的Kafka offset存储方式为zookeeper,在0.8版本时,默认依然是zk,但是此时其实已经出现另外一种offset存储方式了,Kafka以“consumer group + topic + partition”为组合key,记录一份消费信息,存储在默认的”__consumer_offset”的...原创 2018-03-31 19:15:38 · 912 阅读 · 0 评论 -
HBase调优之GC超时
1. HBase GC时间过长1.1 问题描述...2018-03-01 17:32:16,243 WARN org.apache.hadoop.hbase.util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 16100msGC pool 'Par...原创 2018-03-29 17:21:24 · 5032 阅读 · 0 评论 -
Apache Storm之集群安装
1. 环境storm 1.2.1Java 7+ (storm 1.x对java 7 和 java 8均进行了测试)Pytho 2.6.6 (Python 3.x理论上也可以,但是并不作为storm的测试)以上是storm的环境, 如果不匹配的java和python, 有可能会出错.2. storm集群安装步骤设置Zookeeper集群设置Nimbus和worker节...原创 2018-05-31 18:37:57 · 822 阅读 · 0 评论