关闭

HDFS的运行原理

简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点:     ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。     ② 运行在廉价的机器上。 ...
阅读(71) 评论(0)

【案例分享】唯品会海量实时OLAP分析技术升级之路

【文章来源:DBAplus社群。本文根据谢麟炯老师在〖DAMS 2017中国数据资产管理峰会〗现场演讲内容整理而成】 讲师介绍 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。 分享大纲: 海量数据...
阅读(68) 评论(0)

Spark 增量操作 insertInto() 与 mode(SaveMode.Append).saveAsTable() 的区别

前言 使用spark做增量操作的时候,会看到有2个方法都可以做: insertInto 和 mode(SaveMode.Append).saveAsTable() 区别: insertInto() 无关schema,只按数据的顺序插入,类似hive导入csv. mode(SaveMode.Append).saveAsTable() 如果表已存在,会使用已存在的表的format和option来执...
阅读(93) 评论(0)

ROLAP、MOLAP和HOLAP联机分析处理区别

第一篇:      OLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。    “维”(dimension)是人们观察客观世界的角度,是一种高层次的...
阅读(167) 评论(0)

Kylo 0.8.3 安装

前置条件- kylo-0.8.3.deb(待安装) - ubuntu 14.04(已安装) - jdk 8(已安装) - mysql 5.6(已安装) - HDP 2.6(已安装) - HDF 3.0.1.0(包含nifi1.2)(已安装)- cd /opt/kylo/setup - 只安装activemq和elasticsearch,不安装nifi,使用HDF里的nifi 安装脚本修改说明: 如...
阅读(92) 评论(0)

归纳决策树ID3(Java实现)

先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。 table 1 outlook temperature humidity windy play ...
阅读(79) 评论(0)

Parquet与ORC性能测试报告

一、环境说明 Hadoop集群:使用测试hadoop集群,节点: hadoop230 hadoop231 hadoop232 hadoop233 这几台机器配置一样,具体参数可参考如下:  CPU数量:2个  CPU线程数:32个  内存:128GB  磁盘:48TB 使用测试机群上的同一个队列,使用整个集群的资源,所有的查询都是无并发的。 Hive使用官方的h...
阅读(129) 评论(0)

从贝叶斯定理说开去

从贝叶斯定理说开去 罗朝辉 (http://kesalin.github.io/) CC 许可,转载请署名并保留出处 简介 贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介: 所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死...
阅读(108) 评论(0)

Sqoop 1.4.6 踩坑记录

精度丢失问题 异常信息WARN hive.TableDefWriter: Column your_column had to be cast to a less precise type in Hive 描述:使用Sqoop,从MySQL往Hive中import数据的时候出现该异常。MySQL表中,对应的列的类型为decimal(10,2)。Sqoop会把它转为Hive的double类型,导致精度丢...
阅读(209) 评论(0)

Spark 踩坑记录

Encoders.bean(Person.class) 调用报异常 异常信息Exception in thread "main" java.lang.UnsupportedOperationException: Cannot infer type for class personal.leo.spark.Person because it is not bean-compliant 原因: Bean...
阅读(149) 评论(0)

Apache Kylin无法启动,卡在 “Logging initialized using configuration..."

前置条件 完成Hadoop Environment 配置 通过 “bin/check-env.sh” 问题重现 执行 bin/kylin.sh start,然后控制台出现如下信息后,就没有下文了. log4j:WARN No such property [maxFileSize] in org.apache.log4j.DailyRollingFileAppender.Logging initial...
阅读(308) 评论(0)

解决时区导致druid任务构建失败的问题:No buckets?? seems there is no data to index.

Error stack as fllow: 2017-07-10T08:41:36,134 ERROR [task-runner-0-priority-0] io.druid.indexing.overlord.ThreadPoolTaskRunner - Exception while running task[HadoopIndexTask{id=index_hadoop_pageviews...
阅读(485) 评论(0)

使用 Ambari 安装 Hadoop 集群

一.环境:    1.Ubuntu 14.04    2.Ambari 2.5.0   3.JDK1.8 二:说明:   1.使用 root 用户   2.如果仅用作 demo 使用,不建议单机开多台 vm,除非你的机器内存大于32G,使用单台vm执行以下步骤即可.   3.如果有多台机器可做集群,则给不同的机器设置不同的域名即可,如 [ ubuntu0.com, ubuntu1.c...
阅读(382) 评论(0)

Spring Cloud Stream 教程

1.说明     1.1.使用kafka作为MQ 2.源码: https://github.com/leoChaoGlut/spring-cloud-tutorial/tree/master/tutorial-stream...
阅读(556) 评论(0)

Ribbon源码解析及常见问题

1.遇到的问题及对应源码     1.1.Ribbon LoadBalancer 请求缓存:         1.1.1.问题描述: 在基于 Rest 的微服务架构中,使用 Ribbon 来作为客户端负载.当一个服务调用另一个服务的时候, Ribbon 会缓存请求和 service list. 假设现在有service0和service1, 当service1异常关闭后,service0去调用...
阅读(713) 评论(0)
335条 共23页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:487832次
    • 积分:6654
    • 等级:
    • 排名:第3751名
    • 原创:165篇
    • 转载:169篇
    • 译文:1篇
    • 评论:89条
    最新评论