大数据系列
讲解大数据架构从搭建到应用
CodeM91
多年研发管理经验。熟练掌握Java,微服务,大数据,Scala,函数式编程相关。。
展开
-
大数据系列之并行计算引擎Spark介绍
相关博文:大数据系列之并行计算引擎Spark部署及应用Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduc...原创 2017-04-19 22:59:00 · 1273 阅读 · 0 评论 -
大数据系列之Flume+kafka 整合
相关文章:大数据系列之Kafka安装 大数据系列之Flume--几种不同的Sources大数据系列之Flume+HDFS关于Flume 的 一些核心概念:组件名称 功能介绍 Agent代理 使用JVM 运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。 Client客户端 生产数据,运行在...原创 2017-03-14 20:09:00 · 503 阅读 · 4 评论 -
大数据系列之分布式数据库HBase-0.9.8安装及增删改查实践
若查看HBase-1.2.4版本内容及demo代码详见 大数据系列之分布式数据库HBase-1.2.4+Zookeeper 安装及增删改查实践1. 环境准备: 1.需要在Hadoop启动正常情况下安装,hadoop安装可参考LZ的文章 大数据系列之Hadoop分布式集群部署 2. 资料包 hbase-0.98.9-hadoop2-bin.tar.gz2. 安装步骤: ...原创 2017-03-15 18:57:00 · 236 阅读 · 0 评论 -
大数据系列之分布式计算批处理引擎MapReduce实践
关于MR的工作原理不做过多叙述,本文将对MapReduce的实例WordCount(单词计数程序)做实践,从而理解MapReduce的工作机制。WordCount: 1.应用场景,在大量文件中存储了单词,单词之间用空格分隔 2.类似场景:搜索引擎中,统计最流行的N个搜索词,统计搜索词频率,帮助优化搜索词提示。 3.采用MapReduce执行过程如图 ...原创 2017-03-19 12:08:00 · 580 阅读 · 0 评论 -
大数据系列之分布式计算批处理引擎MapReduce实践-排序
清明刚过,该来学习点新的知识点了。上次说到关于MapReduce对于文本中词频的统计使用WordCount。如果还有同学不熟悉的可以参考博文大数据系列之分布式计算批处理引擎MapReduce实践。博文发表后很多同学私下反映对于MapReduce的处理原理没有了解到。在这篇博文中楼主与大家交流下MapReduce的数据处理原理及MR中各角色的职责。文末还有示例代码讲解。。1.MapR...原创 2017-04-07 18:02:00 · 723 阅读 · 0 评论 -
大数据系列之数据仓库Hive中分区Partition如何使用
Hive系列博文,持续更新~~~大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用及JDBC连接 一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概...原创 2017-04-09 10:36:00 · 686 阅读 · 0 评论 -
大数据系列之数据仓库Hive命令使用及JDBC连接
Hive系列博文,持续更新~~~大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用及JDBC连接本文介绍Hive的使用原理及命令行、Java JDBC对于Hive的使用。 在Hadoop项目中,HDFS解决了文件分布式存储的问题,MapReduce解决了数据处理分布...原创 2017-04-09 10:39:00 · 1085 阅读 · 0 评论 -
大数据系列之数据仓库Hive安装
Hive系列博文,持续更新~~~大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用及JDBC连接 Hive主要分为以下几个部分⽤户接口1.包括CLI,JDBC/ODBC,WebUI元数据存储(metastore)1.默认存储在⾃带的数据库derby中,线上使⽤时⼀...原创 2017-04-09 10:45:00 · 422 阅读 · 0 评论 -
大数据系列之数据仓库Hive原理
Hive系列博文,持续更新~~~大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用及JDBC连接 Hive的工作原理简单来说就是一个查询引擎先来一张Hive的架构图:Hive的工作原理如下:接收到一个sql,后面做的事情包括:1.词法分析/语法分析 使用ant...原创 2017-04-09 16:23:00 · 1073 阅读 · 0 评论 -
大数据系列之分布式大数据查询引擎Presto
关于presto部署及详细介绍请参考官方链接 http://prestodb-china.comPRESTO是什么?Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。它可以做什么?Presto支持在线数据查询,包括Hive, C...原创 2017-04-16 19:11:00 · 670 阅读 · 0 评论 -
大数据系列之分布式数据库HBase-1.2.4+Zookeeper 安装及增删改查实践
之前介绍过关于HBase 0.9.8版本的部署及使用,本篇介绍下最新版本HBase1.2.4的部署及使用,有部分区别,详见如下:1. 环境准备: 1.需要在Hadoop[hadoop-2.7.3] 启动正常情况下安装,hadoop安装可参考LZ的文章 大数据系列之Hadoop分布式集群部署 2. 资料包 zookeeper-3.4.9.tar.gz,hbase-1.2.4-b...原创 2017-03-19 08:58:00 · 344 阅读 · 0 评论 -
大数据系列之并行计算引擎Spark部署及应用
相关博文:大数据系列之并行计算引擎Spark介绍之前介绍过关于Spark的程序运行模式有三种:1.Local模式;2.standalone(独立模式)3.Yarn/mesos模式本文将介绍Spark安装及运行模式的第1、3两种模式。安装包: spark-2.1.0-bin-hadoop2.7.tgz size:195MB 下载链接: https://pa...原创 2017-04-20 00:29:00 · 456 阅读 · 0 评论 -
大数据系列之Kafka安装
先简单说下安装kafka的流程。。(可配置多个zookeeper,这篇文只说一个zookeeper场景)1.环境配置:jdk1.7+ (LZ用的是jdk1.8)2.资料准备:下载 kafka_2.10-0.10.1.1.tgz ,官网链接为https://www.apache.org/dyn/closer.cgi?path=/kafka/0.10.1.1/kafka_2.10-0.10.1.1原创 2017-03-14 17:42:04 · 372 阅读 · 0 评论 -
大数据系列之kafka-java实现
Java源码GitBub地址: https://github.com/fzmeng/kafka-demo关于kafka安装步骤可见文章 http://www.cnblogs.com/cnmenglang/p/6520166.html在上篇文章中使用shell 命令处理了kafka的消息生产与消息消费。下面介绍Java语言对kafka的消息生产与消息消费的处理。1.代码结构如图2.po原创 2017-03-14 17:42:07 · 1827 阅读 · 1 评论 -
大数据系列之kafka监控kafkaoffsetmonitor安装
1.下载kafkaoffsetmonitor的jar包,可以到github搜索kafkaoffsetmonitor,第一个就是,里面可以下载编译好了的包。KafkaOffsetMonitor-assembly-0.2.1.jar2.新建在kafka的bin下面新建kafka-monitor文件夹,把jar包KafkaOffsetMonitor-assembly-0.2.1.jar丢进去,并且在原创 2017-03-14 17:42:24 · 1084 阅读 · 1 评论 -
大数据系列之Flume--几种不同的Sources
1.flume概念flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集、聚集和移动,并以集中式的数据存储的系统。flume目前是apache的一个顶级项目。flume需要java运行环境,要求java1.6以上,推荐java1.7.将下载好的flume安装包解压到指定目录即可。2.flume中的重要模型2.1.1.flume Event:flume 事件原创 2017-03-14 17:42:16 · 908 阅读 · 0 评论 -
大数据系列之Flume+HDFS
本文将介绍Flume(Spooling Directory Source) + HDFS,关于Flume 中几种Source详见文章 http://www.cnblogs.com/cnmenglang/p/6544081.html1.资料准备 : apache-flume-1.7.0-bin.tar.gz2.配置步骤: a.上传至用户(LZ用户mfz)目录resources下原创 2017-03-14 17:42:19 · 267 阅读 · 0 评论 -
大数据系列之Hadoop框架
Hadoop框架中,有很多优秀的工具,帮助我们解决工作中的问题。Hadoop的位置从上图可以看出,越往右,实时性越高,越往上,涉及到算法等越多。越往上,越往右就越火…… Hadoop框架中一些简介 HDFSHDFS,(Hadoop Distributed File System) hadoop分布式文件系统。在Google开源有关DFS的论文后,由一位大牛开发而成。HDFS的建原创 2017-03-14 17:42:12 · 319 阅读 · 0 评论 -
大数据系列之Hadoop分布式集群部署
本节目的:搭建Hadoop分布式集群环境环境准备LZ用OS X系统 ,安装两台Linux虚拟机,Linux系统用的是CentOS6.5;Master Ip:10.211.55.3 ,Slave Ip:10.211.55.4各虚拟机环境配置好Jdk1.8(1.7+即可)资料准备 hadoop-2.7.3.tar.gz虚拟机配置步骤以下操作都在两台原创 2017-03-14 17:42:49 · 493 阅读 · 0 评论