博客专栏  >  云计算/大数据   >  自学大数据之路

自学大数据之路

该系列文章是自己的自学成果的提炼,希望借此一方面巩固下自己的知识体系,另一方面与“志同道合”的朋友分享交流。如有错误或不足,希望大家指出。谢谢。近期会把之前学过的东西再总结出一些文章,对于已经发表的文章也会做一些更新。确保每篇文章都能达到“干货”的等级

关注
4 已关注
36篇博文
  • 大数据之SparkSQL简介及DataFrame的使用

    前言: 本文主要介绍下SparkSQL以及SparkSQL的简单使用。这里只是做了一个非常简单的介绍,后续工作中如果有用到相关的知识,我会再总结。 1、Spark SQL 1.1、Spa...

    2018-04-07 20:25
    37
  • 大数据之Spark简介及RDD说明

    前言: 本篇文章只是简单介绍下Spark,然后对Spark的RDD在做一个全面的介绍。由于博主知识有限,这里只是做一个简单的介绍。若有些地方有问题,请大家及时指出。后续随着深入的学习,会再进一步总结...

    2018-04-07 18:01
    40
  • 大数据之Spark集群安装及简单使用

    1、Spark集群安装 1.1. 安装 1.1.1. 机器部署 准备两台以上Linux服务器,安装好JDK1.7 1.1.2. 下载Spark安装包 下载地址:http:...

    2018-04-07 16:30
    52
  • 大数据之Kafka内部原理详细介绍

    前言: 本篇文章所介绍的内容还是以了解为主,主要目的还是为了对Kafka有一个更深入的理解。主要介绍了以下几个知识点:Kafka的负载均衡、Producer生产数据、Kafka文件存储机制等(不过总...

    2018-04-07 15:47
    43
  • 大数据之Kafka集群安装及简单使用

    1、Kafka集群部署 1.1、下载安装包 http://kafka.apache.org/downloads.html 在linux中使用wget命令下载安装包 wget ht...

    2018-04-07 14:34
    78
  • 大数据之Kafka入门简介

    前言: 作为流式计算中的一个组件,对于它的组成以及运行的原理,学习者也需要相关的了解。以下主要简单介绍了kafka是什么以及对应的组件有哪些;除此之外重点介绍了JMS,毕竟JMS也算是Kafka的核...

    2018-04-07 14:18
    32
  • 初级大数据工程师面经指南(下)

    1、周一第一场面试,面得是某B轮初创公司的数据开发工程师岗位。 结果:到技术面 过程(持续半小时多点):对这家公司的装潢设计印象比较深刻。哈哈,跑偏了。整个面试的感觉很舒服。没有太多的套路(像什么...

    2018-03-31 00:14
    97
  • Storm任务提交过程及目录树介绍

    前言: 对于任何一个组件来说,了解它相关的任务提交的过程是非常有必要的(毕竟生产中遇到一些Bug时,你如果知道内部执行的过程,那么会对问题的解决会有很大的帮助)。除此之外还会对Storm相关的目录树...

    2018-04-06 22:37
    55
  • Storm程序的并发机制

    前言: 为了在以后的实践中提高Storm程序执行的效率,我们还是有必要了解下对应的Storm程序的并发机制。(哈哈,虽然以博主小菜鸟的水平还没有接触到这种提升程序效率层面的东西(这里只是空谈理论),...

    2018-04-06 22:12
    45
  • Storm的通信机制

    前言: 这篇文章,博客主要介绍下Storm中Worker进程间和进程内部通信的原理和技术。整篇内容仅供了解,如有不足或错误请指出。 Worker间的通信经常需要通过网络跨节点进行,Storm使用Z...

    2018-04-06 21:35
    27
  • Storm集群的安装及简单使用

    前言: 这里先简单说一下Storm的安装的主要步骤,还会介绍下Storm的常用的操作指令以及各个进程对应的日志信息,之后会简单介绍下Storm的源码目录。 1、集群部署的基本流程 集群部署的...

    2018-04-06 18:23
    20
  • Storm编程模型总结

    前言: 对于Storm的编程模型有必要做一个详细的介绍(配合WC案例来介绍) 1、Storm编程模型 上图中组件的解释: DataSource:外部数据源 Spout:接受外部数据源的组...

    2018-04-06 17:12
    46
  • Zookeeper的简介及命令行操作

    前言 作为一款第三方的协调服务框架,ZK被应用在许多地方,如:Hbase中用于存储-ROOT表的位置信息;Storm中用于保存任务分配的信息、心跳信息、元数据信息等。只要是在整个设计中需要一个第三方...

    2018-03-30 10:53
    31
  • Zookeeper集群角色分配原理

    ZK内部存在Leader和Follower两个角色,那么这两种角色是怎样划分呢?或者说是怎么样被选举出来呢?以下将详细介绍ZK内部的选举机制。 ZK是通过内部的选举算法来选出Leader。(服务器需...

    2018-03-30 11:11
    84
  • Hbase读写数据的原理解析

    1、体系图 针对上图的一些解释: 这里面数据分区(region)存储是为了查询方便(即因为是集群所以能充分利用磁盘的IO性)。添加数据时,数据先进入Hlog–预写日志(数据只能追加不能修改)&...

    2018-03-29 21:44
    163
  • 初级大数据工程师面经指南(上)

    经过近一年卧薪尝胆的自学和各种折腾后,于上年裸辞的博主终于于3月中旬来到深圳。彼时毕竟是没参加过任何大数据方面面试的小菜鸟,对前面的路一无所知,甚至连自己能不能找到一份适合的工作都曾怀疑过。当时一想到...

    2018-03-25 16:47
    214
  • Yarn在MapReduce中的工作机制

    前言: 在了解Yarn在MR中的作用的时候需要先了解Yarn是什么。 1、YARN概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而map...

    2018-03-28 21:02
    45
  • Storm入门简介

    前言: 在介绍Storm之前,先介绍下离线计算。 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce...

    2018-01-11 14:23
    123
  • Hbase简介及常用命令

    前言: 对于Hbase来说,由于其是基于列的数据库,所以比传统的数据库快许多(每次查询只需要查询一个属性值,传统数据库则需要查询一行数据中的所有属性,因此比较慢。)以下只是对Hbase做了一个基本介...

    2018-01-08 14:45
    146
  • Hive的基本操作

    前言: 对于Hive来说最重要的一点就是能够用Hql来进行数据分析。而Hql来处理数据比MapReduce方便很多(原理是一样的,Hql底层转化为MapReduce来处理数据)。而随着技术的发展,编...

    2018-03-29 14:46
    34

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部