大数据(Hadoop,Spark)学习
学习Hadoop、Spark相关技术。
HDFS、Spark SQL、Impala、Hive、HAWQ、Spark Streaming 、MapReduce、HBase、Storm、Kafka、Kylin、Zookeeper等相关技术。
虚无境
这个作者很懒,什么都没留下…
展开
-
Kafka 使用Java实现数据的生产和消费demo
前言在上一篇中讲述如何搭建kafka集群,本篇则讲述如何简单的使用 kafka 。不过在使用kafka的时候,还是应该简单的了解下kafka。Kafka的介绍Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 Kafka 有如下特性: - 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问原创 2018-01-28 14:38:46 · 27790 阅读 · 14 评论 -
关于Kafka 的 consumer 消费者手动提交详解
前言在上一篇 Kafka使用Java实现数据的生产和消费demo 中介绍如何简单的使用kafka进行数据传输。本篇则重点介绍kafka中的 consumer 消费者的讲解。应用场景在上一篇kafka的consumer消费者,我们使用的是自动提交offset下标。 但是offset下标自动提交其实在很多场景都不适用,因为自动提交是在kafka拉取到数据之后就直接提交,这样很容易丢失...原创 2018-02-08 19:57:17 · 23746 阅读 · 6 评论 -
kafka和storm集群的环境安装
前言storm和kafka集群安装是没有必然联系的,我将这两个写在一起,是因为他们都是由zookeeper进行管理的,也都依赖于JDK的环境,为了不重复再写一遍配置,所以我将这两个写在一起。若只需一个,只需挑选自己选择的阅读即可。这两者的依赖如下:Storm集群:JDK1.8 , Zookeeper3.4,Storm1.1.1;Kafa集群 : JDK1.8 ,Zookeeper3原创 2018-01-26 21:09:16 · 1540 阅读 · 2 评论 -
Storm 入门的Demo教程
Storm介绍Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Stor...原创 2018-03-16 20:05:03 · 2623 阅读 · 0 评论 -
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 —– Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为hive默认使用的引擎是MapReduce。因此就将spark作为hive的引擎来对hbase进行查询,在成功的整合之后,我将如何整合的过程写成本篇博文。具体如下!事前准备在进行整合之前,首先确原创 2018-01-20 21:24:17 · 1131 阅读 · 3 评论 -
大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法
前言在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误。我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了。因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题。说明: 遇到的问题以及相应的解决办法是对于个人当时的环境,具体因人而异。如果碰到同样的问题,本博客的方法无法解决您的问题,请先检查环境配置问题。Hadoop伪分布式相关的问题1,FATAL con原创 2018-01-07 19:47:24 · 3824 阅读 · 0 评论 -
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解
引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试。其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式。至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了。。。 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇原创 2017-12-30 15:48:03 · 22534 阅读 · 13 评论 -
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中 大数据学习系列之五 —– Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合HBase,并且测试成功了。在之前的大数据学习系列之一 —– Hadoop环境搭建(单机) : http://www.panchengming.com/2017/11/26/pancm55/ 中成功的搭建了H原创 2017-12-19 19:13:05 · 5842 阅读 · 1 评论 -
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇 大数据学习系列之四 —– Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 —– HBase环境搭建(单机) 中成功搭建了Hive和HBase的环境,并进行了相应的测试。本文主要讲的是如何将Hive和HBase进行整合。Hive和HBase的通信意图Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目原创 2017-12-18 18:47:41 · 1861 阅读 · 0 评论 -
大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
在[大数据学习系列之一 ----- Hadoop环境搭建(单机)](http://blog.csdn.net/qazwsxpcm/article/details/78637874) 成功的搭建了Hadoop的环境,在[大数据学习系列之二 ----- HBase环境搭建(单机)](http://blog.csdn.net/qazwsxpcm/article/details/78760055)成功搭建了HBase的环境以原创 2017-12-16 09:32:36 · 3926 阅读 · 0 评论 -
大数据学习系列之三 ----- HBase Java Api 图文详解
在上一篇中[大数据学习系列之二 ----- HBase环境搭建(单机)](http://blog.csdn.net/qazwsxpcm/article/details/78760055) 中,成功搭建了Hadoop+HBase的环境,本文则主要讲述使用Java 对HBase的一些操作。原创 2017-12-14 18:26:39 · 1659 阅读 · 1 评论 -
大数据学习系列之二 ----- HBase环境搭建(单机)
引言在上一篇中搭建了Hadoop的单机环境,这一篇则搭建HBase的单机环境环境准备1,服务器选择阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G2,配置选择JDK:1.8 (jdk-8u144-linux-x64.tar.gz) Hadoop:2.8.2 (hadoop-2.8.2.tar.gz) HB原创 2017-12-09 16:41:01 · 4308 阅读 · 7 评论 -
大数据学习系列之一 ----- Hadoop环境搭建(单机)
一、环境选择1,服务器选择阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G ip:39.108.77.250 2,配置选择JDK:1.8 (jdk-8u144-linux-x64.tar.gz) Hadoop:2.8.2 (hadoop-2.8.2.tar.gz)3,下载地址官网地址: JDK:原创 2017-11-26 16:18:38 · 19853 阅读 · 13 评论 -
大数据的一些相关知识介绍
什么是大数据 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的定义是4Vs:Volume、Velocity、Variety、Veracity。用中文简单描述就是大、快、多、真。Volume —— 数据量大随着技术的发展,人们收集信息的能原创 2017-11-25 11:04:09 · 3623 阅读 · 1 评论