博客专栏  >  云计算/大数据   >  自学大数据之路

自学大数据之路

刚刚接触大数据半年多了吧,所以想写下自己的学习过程,一方面巩固下自己的知识体系,另一方面分享下在自学道路上的成果,希望与“志同道合”的朋友一起交流。如有错误或不足,希望大家指出。谢谢。

关注
1 已关注
17篇博文
  • Storm相关介绍

    在介绍Storm之前,先介绍下Storm的应用场景——流式计算。 流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示。 代表技术:Flume实时采集数据、kafka实时数据存储、Sto...

    2018-01-11 14:23
    36
  • Hbase相关介绍

    1.Hbase简介 HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统 HBASE利用Hadoop HDFS作为其文件存储系统 HBASE同样利用Hadoop MapReduce来...

    2018-01-08 14:45
    49
  • Hive的相关介绍

    1、Hive简介什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive的特点 可扩展 : Hive可以自由的...

    2017-12-29 17:32
    281
  • SparkRDDAPI常用算子说明

    SparkRDD算子分为两类:Transformation与Action. Transformation:即延迟加载数据,Transformation会记录元数据信息,当计算任务触发Action时,...

    2017-12-14 20:27
    60
  • Secondary Namenode的Check point机制说明

    在说明checkpoint机制之前,先要了解下namenode的一些功能和职责。 namenode的职责: 负责客户端请求的响应; 元数据的管理(查询,修改); 对元数据管理: namenode...

    2017-12-28 23:00
    156
  • 安装Hbase(分布式)遇到一些问题及解决方法

    问题一:安装完成后执行l在Hbase shell 命令行执行list命令时,爆出如下错误:hbase(main):001:0> list TABLE

    2017-11-17 01:19
    86
  • Hive的安装教程(元数据放在本地Mysql)

    1.上传tar包 jar包地址: 2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/ 3.安装mysql数据库(切换到root用户) 参考:htt...

    2017-10-18 22:52
    131
  • MapReduce原理全剖析

    MapReduce剖析图如上图所示是MR的运行详细过程 首先mapTask读文件是通过InputFormat(内部是调RecordReader()–>read())来一次读一行,返回K,V值。(默认是...

    2017-12-28 17:00
    310
  • 大数据之MapReduce详解(MR的运行机制及配合WordCount实例来说明运行机制)

    今天先总体说下MapReduce的相关知识,后续将会详细说明对应的shuffle、mr与yarn的联系、以及mr的join操作的等知识。以下内容全是个人学习后的见解,如有遗漏或不足请大家多多指教。1、...

    2017-10-31 15:30
    97
  • 大数据之HDFS应用开发(java API)

    1、搭建开发环境window下开发的说明: A、在windows的某个目录下解压一个hadoop的安装包 B、将安装包下的lib和bin目录用对应windows版本平台编译的本地库替换 (这里我...

    2017-10-31 14:50
    86
  • HDFS读写数据的原理

    最近由于要准备面试,就把之前学过的东西好好整理下,权当是复习。 下面说下HDFS读写数据的原理。1 概述 HDFS集群分为两大角色:NameNode、DataNode NameNode负责管理整个...

    2017-12-26 22:04
    41
  • HDFS的简介及基本操作(常用的命令参数介绍)

    总算有空来接着写大数据的学习笔记了,今天就把之前学过的HDFS的知识详细的介绍一下,如有哪点写的不足希望大家多多指教。1、HDFS基本概念1.1、前言: 设计思想 分而治之:将大文件、大批量文件,...

    2017-10-30 11:29
    114
  • Linux常用命令总结

    系统目录结构 bin (binaries)存放二进制可执行文件 sbin (super user binaries)存放二进制可执行文件,只有root才能访问 etc (etce...

    2017-09-23 22:06
    126
  • 大数据集群搭建之hadoop、tomcat、jdk等工具的安装(三)

    本章就说下各种软件的安装和配置。一、准备的资源:1、tomcat(如用于在网页上查看HDFS的存储等) 地址:http://pan.baidu.com/s/1miC93ny 密码:52dd 2、...

    2017-09-18 22:51
    404
  • 大数据集群搭建之节点的网络配置过程(二)

    紧接着上一章来设置windows的vmnet8的ip地址和虚拟机中centos的ip地址。NAT虚拟网络的配置图如下图所示: 1、这里根据VMware中得到的网关地址去设置vmnet8的ip地址。 ...

    2017-09-17 15:45
    222
  • 大数据集群搭建之Linux的安装(一)

    1、准备工具VMWare、centos mimal版本系统文件。2、工具安装1、安装vmware软件 安装软件地址: VMWare:http://pan.baidu.com/s/1qYnySrE ...

    2017-09-17 14:20
    220
  • 大数据开发初学者学习路线

    最近看到一篇很不错的文章,献给正在学习大数据的你我他。 转自:http://www.ppvke.com/Blog/archives/50967前言其实这就是想告诉你的大数据的三个发展方向,平台搭建/...

    2017-12-27 14:24
    97
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部