博客专栏  >  云计算/大数据   >  大数据学习之路

大数据学习之路

分析大数据学习路上遇到的各种坑,为新学习大数据的人铺平道路

关注
64 已关注
39篇博文
  • 深入理解Basic Paxos协议

    Paxos作用Paxos用来在多个节点间确定并只确定一个不可变变量的取值。(一旦确定后就不可以更改)基本概念 系统内部由多个Acceptor组成,也就是参与决议的一方,用于存储和管理变量。 系统外部有...

    2017-12-02 20:50
    143
  • 2PC和3PC中故障情况分析

    2PC故障情况分析1. 协调者正常,参与者宕机 发生在第二阶段:无论协调者发起的是提交还是终止,那宕机的参与者在重启之后,都将执行对应操作,不存在不一致情况。 发生在第一阶段:由于协调者无法收集到所有...

    2017-12-01 12:58
    342
  • Presto内存管理源码分析

    1. 内存池初始化初始化代码在LocalMemoryManager中,启动时将内存分为3个内存池,分别是: RESERVED_POOL:预留内存池,用于执行最耗费内存资源的查询。 GENERAL_PO...

    2017-11-24 21:21
    516
  • Presto日志中出现大量的Triggering GC to avoid Code Cache eviction bugs

    问题描述:Presto日志中出现大量的2017-07-31T15:31:21.505+0800 INFO Code-Cache-GC-Trigger com.facebook.pres...

    2017-08-02 21:14
    956
  • 数据仓库与联机分析处理笔记

    本文为《数据挖掘:概念与技术》中“数据仓库与联机分析处理”的阅读笔记。4. 数据仓库与联机分析处理 ETL:用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load...

    2017-11-21 00:10
    192
  • HiveJDBC与其他JDBC一起使用时出现java.lang.IllegalArgumentException: Bad URL format

    程序中需要使用JDBC的方式同时访问Hive和MySQL,发现在获取MySQL连接的时候(DriverManager.getConnection方法)出现Hive的类中的Bad URL format异...

    2017-07-07 11:40
    1017
  • Flume 1.7 源码分析(五)从Channel获取数据写入Sink

    6 从Channel获取数据写入Sink6.1 Sink部分Sink部分主要分为以下3个步骤: 1. 由SinkRunner不断调用SinkProcessor的process方法。 2. 根...

    2017-03-04 17:46
    1307
  • Flume 1.7 源码分析(四)从Source写数据到Channel

    5 从Source写数据到Channel5.1 Source部分5.1.1 SourceRunnerSourceRunner就是专门用于运行Source的一个类。 在”物化配置”一节获取配置信...

    2017-03-01 13:42
    2255
  • Flume 1.7 源码分析(三)程序入口

    Flume 1.7 源码分析(一)源码编译 Flume 1.7 源码分析(二)整体架构 Flume 1.7 源码分析(三)程序入口 4 程序入口启动Flume的过程可以简单分为2个步...

    2017-02-27 13:20
    1288
  • Flume 1.7 源码分析(二)整体架构

    Flume 1.7 源码分析(一)源码编译 Flume 1.7 源码分析(二)整体架构 3 整体架构Flume有三大组件:Source、Channel、Sink。 Source就是数据来源...

    2017-02-27 13:07
    1010
  • Flume 1.7 源码分析(一)源码编译

    1 说明Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前已经是Apache的一个子项目。Flume是一个专用工具被设计为旨在往HDFS、HBase...

    2017-02-26 16:11
    1780
  • Flume 1.6 遇Emoji表情发生截断丢失数据问题分析

    问题描述最近有一段时间,跑ETL的时候,发现出来的数据明显比之前少,少了大约一半左右,就开始排查。 我们的数据是从Flume采集过来的,排查日志发现,flume在读取到某一条的时候,就不再往下读取了...

    2017-02-04 07:19
    1081
  • Flume学习笔记(二)问题整理

    本文环境如下: 操作系统:CentOS 7.2.1511 64位 Flume版本:1.6.0 1. 当Flume与Hadoop不在同一服务器上当Flume与Hadoop不在同一服务器上时,...

    2016-08-04 13:51
    2250
  • Flume学习笔记(一)安装与简单使用

    本文环境如下: 操作系统:CentOS 7.2.1511 64位 Flume版本:1.6.0 1. 系统需求Flume需要Java 1.6及以上(推荐1.7),对Agent监控目录的读写权...

    2016-07-26 13:56
    10404
  • Flume性能测试报告

    1. 测试环境1.1 硬件 CPU:Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz(8核) 内存:16G 1.2 软件 Flume:1.6.0 Hadoop:2...

    2016-07-15 13:42
    10765
  • 关于Storm Tick

    转载自kqdongnanf-博客园;Email:kqdongnanf@yahoo.com。1. tick的功能Apache Storm中内置了一种定时机制——tick,它能够让任何bolt的所有tas...

    2016-05-25 13:23
    16224
  • YARN体系学习笔记

    一、基本组成结构1. ResourceManager负责对各个NodeManager 上的资源进行统一管理和调度。包含两个组件: * Scheduler:调度器根据容量、队列等限制条件(如每个队列分...

    2016-05-20 16:12
    17811
  • Presto常用语句整理

    查询从0或多个表获取数据行[ WITH with_query [, ...] ] SELECT [ ALL | DISTINCT ] select_expr [, ...] [ FROM from_i...

    2016-05-16 22:08
    23062
  • HDFS High Availability体系介绍(Using the Quorum Journal Manager)

    一、背景HDFS集群中只有一个Namenode,这就会引入单点问题;即如果Namenode故障,那么这个集群将不可用,直到Namenode重启或者其他Namenode接入。 有两种方式会影响集群的...

    2016-05-16 11:19
    12309
  • Hive体系结构(四)注意事项与扩展特性

    Hive体系结构(一)架构与基本组成 Hive体系结构(二)Hive的执行原理、与关系型数据库的比较 Hive体系结构(三)元数据库与基本操作 Hive体系结构(四)注意事项与扩展特...

    2016-05-15 18:00
    10927
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部