博客专栏  >  云计算/大数据   >  大数据学习之路

大数据学习之路

分析大数据学习路上遇到的各种坑,为新学习大数据的人铺平道路

关注
59 已关注
35篇博文
  • Presto日志中出现大量的Triggering GC to avoid Code Cache eviction bugs

    问题描述:Presto日志中出现大量的2017-07-31T15:31:21.505+0800 INFO Code-Cache-GC-Trigger com.facebook.pres...

    2017-08-02 21:14
    727
  • HiveJDBC与其他JDBC一起使用时出现java.lang.IllegalArgumentException: Bad URL format

    程序中需要使用JDBC的方式同时访问Hive和MySQL,发现在获取MySQL连接的时候(DriverManager.getConnection方法)出现Hive的类中的Bad URL format异...

    2017-07-07 11:40
    797
  • Flume 1.7 源码分析(五)从Channel获取数据写入Sink

    6 从Channel获取数据写入Sink6.1 Sink部分Sink部分主要分为以下3个步骤: 1. 由SinkRunner不断调用SinkProcessor的process方法。 2. 根...

    2017-03-04 17:46
    1101
  • Flume 1.7 源码分析(四)从Source写数据到Channel

    5 从Source写数据到Channel5.1 Source部分5.1.1 SourceRunnerSourceRunner就是专门用于运行Source的一个类。 在”物化配置”一节获取配置信...

    2017-03-01 13:42
    2043
  • Flume 1.7 源码分析(三)程序入口

    Flume 1.7 源码分析(一)源码编译 Flume 1.7 源码分析(二)整体架构 Flume 1.7 源码分析(三)程序入口 4 程序入口启动Flume的过程可以简单分为2个步...

    2017-02-27 13:20
    1053
  • Flume 1.7 源码分析(二)整体架构

    Flume 1.7 源码分析(一)源码编译 Flume 1.7 源码分析(二)整体架构 3 整体架构Flume有三大组件:Source、Channel、Sink。 Source就是数据来源...

    2017-02-27 13:07
    862
  • Flume 1.7 源码分析(一)源码编译

    1 说明Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前已经是Apache的一个子项目。Flume是一个专用工具被设计为旨在往HDFS、HBase...

    2017-02-26 16:11
    1527
  • Flume 1.6 遇Emoji表情发生截断丢失数据问题分析

    问题描述最近有一段时间,跑ETL的时候,发现出来的数据明显比之前少,少了大约一半左右,就开始排查。 我们的数据是从Flume采集过来的,排查日志发现,flume在读取到某一条的时候,就不再往下读取了...

    2017-02-04 07:19
    932
  • Flume学习笔记(二)问题整理

    本文环境如下: 操作系统:CentOS 7.2.1511 64位 Flume版本:1.6.0 1. 当Flume与Hadoop不在同一服务器上当Flume与Hadoop不在同一服务器上时,...

    2016-08-04 13:51
    2081
  • Flume学习笔记(一)安装与简单使用

    本文环境如下: 操作系统:CentOS 7.2.1511 64位 Flume版本:1.6.0 1. 系统需求Flume需要Java 1.6及以上(推荐1.7),对Agent监控目录的读写权...

    2016-07-26 13:56
    8884
  • Flume性能测试报告

    1. 测试环境1.1 硬件 CPU:Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz(8核) 内存:16G 1.2 软件 Flume:1.6.0 Hadoop:2...

    2016-07-15 13:42
    10353
  • 关于Storm Tick

    转载自kqdongnanf-博客园;Email:kqdongnanf@yahoo.com。1. tick的功能Apache Storm中内置了一种定时机制——tick,它能够让任何bolt的所有tas...

    2016-05-25 13:23
    16021
  • YARN体系学习笔记

    一、基本组成结构1. ResourceManager负责对各个NodeManager 上的资源进行统一管理和调度。包含两个组件: * Scheduler:调度器根据容量、队列等限制条件(如每个队列分...

    2016-05-20 16:12
    17592
  • Presto常用语句整理

    查询从0或多个表获取数据行[ WITH with_query [, ...] ] SELECT [ ALL | DISTINCT ] select_expr [, ...] [ FROM from_i...

    2016-05-16 22:08
    20753
  • HDFS High Availability体系介绍(Using the Quorum Journal Manager)

    一、背景HDFS集群中只有一个Namenode,这就会引入单点问题;即如果Namenode故障,那么这个集群将不可用,直到Namenode重启或者其他Namenode接入。 有两种方式会影响集群的...

    2016-05-16 11:19
    12169
  • Hive体系结构(四)注意事项与扩展特性

    Hive体系结构(一)架构与基本组成 Hive体系结构(二)Hive的执行原理、与关系型数据库的比较 Hive体系结构(三)元数据库与基本操作 Hive体系结构(四)注意事项与扩展特...

    2016-05-15 18:00
    10796
  • Hive体系结构(三)元数据库与基本操作

    Hive体系结构(一)架构与基本组成 Hive体系结构(二)Hive的执行原理、与关系型数据库的比较 Hive体系结构(三)元数据库与基本操作 1. Hive元数据库Hive将元数据存储在...

    2016-05-15 17:34
    4861
  • Hive体系结构(二)Hive的执行原理、与关系型数据库的比较

    接上篇:Hive体系结构(一)架构与基本组成1. Hive执行原理Hive构建在Hadoop之上, 1. HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的 2. 所有的数据都是存储在...

    2016-05-15 17:11
    7020
  • Hive体系结构(一)架构与基本组成

    1 Hive的体系结构划分下面是Hive的架构图: 1. 用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是...

    2016-05-12 14:13
    6724
  • 15分钟了解Apache Phoenix(HBase的开源SQL引擎)

    翻译自官方文档(http://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html),翻译的不好,望轻拍砖!什么是Phoenix?Phoenix是...

    2016-05-12 19:48
    5198
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部