大数据生态
文章平均质量分 94
大数据相关文章,介绍包括但不限于Hadoop、Hive、HBase、Spark等主流大数据框架的思想与使用,分享个人心得。
萧邦主
学生一枚,学习大数据ing.....这是一个大数据的时代!!
展开
-
Spark学习之路(六):深入剖析与使用RDD的持久化机制和Checkpoint机制
内容简介一、持久化机制Persist二、检查点机制Checkpoint三、持久化与Checkpoint的区别四、代码演示五、总结一、持久化机制Persist所谓RDD的持久化,其实就是对RDD进行缓存,它是Spark重要的优化手段之一。为什么需要对RDD进行缓存呢?这与Spark作业的执行机制有关,我们知道,Spark程序只有遇到action算子的时候才会执行程序,具体的执行算法大致如下:S...原创 2019-07-10 16:51:38 · 1034 阅读 · 0 评论 -
Spark学习之路(五):使用Java和Scala编写按词频降序排序的WordCount程序
内容简介一、按词频降序排序的WordCount思路分析二、使用Java编写程序三、使用Scala编写程序四、总结一、按词频降序排序的WordCount思路分析WordCount,也叫词频统计程序是大数据里面一个最简单的入门程序,但是“麻雀虽小,五脏俱全”,WordCount涵盖了大数据处理的核心思想,因而非常之重要。而加入了排序功能之后的WordCount就更加具有价值了。现在分析按词频降序...原创 2019-06-29 15:50:02 · 1321 阅读 · 0 评论 -
Spark学习之路(四):深度图解Spark算子运作原理
内容简介一、Spark算子的概念二、Spark常用算子概览1. transform算子2.action算子三、Spark常用算子原理图解1.transform算子2.action算子四、总结一、Spark算子的概念在Spark中提供了大量的算子来操作RDD,所谓算子可以理解为操作RDD的方法或者函数。算子大致分为两种类型:transform算子和action算子,所谓transform算子是...原创 2019-06-28 02:17:27 · 1729 阅读 · 1 评论 -
Spark学习之路(三):剖析RDD的概念及用三种方式创建RDD
内容简介一、RDD的基本概念二、创建RDD1.使用三种方式创建RDD2.使用Java演示三种方式创建RDD3.使用Scala演示三种方式创建RDD三、总结一、RDD的基本概念RDD ,弹性分布式数据集, 是分布式内存的一个抽象概念,是Spark中最为基本也最为重要的一个抽象,如果说Java的哲学是“万物皆对象”的话,可以笼统地认为Spark的哲学是“万物皆RDD”,这句话的意思是在Spark...原创 2019-06-26 00:19:00 · 871 阅读 · 0 评论 -
Spark学习之路(一):Spark基于Standalone模式完全分布式搭建集群
Spark完全分布式搭建一、Spark集群的部署方式1.Standalone模式2.Spark On YARN模式3.Spark On Mesos模式二、基于Standalone模式部署集群1.下载并解压Spark安装包2.配置环境变量3.置Spark的配置文件4. 启动集群三、测试集群四、总结一、Spark集群的部署方式1.Standalone模式与MapReduce1.0框架类似,Sp...原创 2019-06-23 22:54:08 · 1442 阅读 · 0 评论 -
Spark学习之路(二):Spark核心术语详讲及作业提交流程
内容简介一、初识Spark二、Spark核心术语详讲三、Spark作业提交流程四、总结一、初识SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于...原创 2019-06-25 00:41:39 · 578 阅读 · 0 评论 -
Hadoop学习之路(十):MapReduce进阶之链式MapReduce操作实战
内容简介一、链式MapReduce操作的概念二、链式MapReduce实战案例1. 需求分析2. 数据准备3. 代码编写4. 打包上传5. 测试三、总结一、链式MapReduce操作的概念在以往的MapReduce案例中,无论是简单的WordCount还是比较复杂的使用MR统计社交共同好友的MapReduce作业都仅仅包含一个Map类和Reducer类,这就使得MR作业在实现某些复杂的程序时...原创 2019-06-22 15:15:53 · 666 阅读 · 0 评论 -
Hadoop学习之路(九):数据倾斜的成因及其解决方法(详细代码演示)
内容简介一、数据倾斜概述1. 什么是数据倾斜2. 数据倾斜的成因二、数据倾斜的解决方法1. 重新定义分区类2. 重新定义Key三、代码演示1.构建Java工程,添加Maven支持2. 重新定义分区类代码演示(1).第一阶段作业(2).第二阶段作业3. 重新定义Key代码演示(1).第一阶段作业(2).第二阶段作业四、总结一、数据倾斜概述1. 什么是数据倾斜在使用Hadoop进行数据处理的过程...原创 2019-05-06 12:13:55 · 1436 阅读 · 0 评论 -
HBase学习之路(四):理解HBase的基本架构
内容简介一、HBase表结构剖析1. 行健2. 列族3. 列4. 单元格5. 时间戳二、HBase表数据模型三、HBase核心架构1. HMaster2. HRegionServer3. ZooKeeper四、HBase读写流程1. 读流程2. 写流程五、总结一、HBase表结构剖析HBase是面向列的非关系型数据库,可以简单地总结,列是HBase最基本的单位,一行由多列组成。具体组成结构如下...原创 2019-05-05 19:30:48 · 791 阅读 · 0 评论 -
HBase学习之路(三):Java客户端的批处理和扫描操作详讲
内容简介一、概述二、操作前的准备三、批处理操作四、扫描1.Scan操作2.缓存与批量处理五、总结一、概述在前面已经介绍了,使用JavaAPI对HBase的数据进行检索、添加和删除的操作,但是那些操作都是基于一行或者一个列表的操作,这一节将介绍如何使用JavaAPI批量处理跨多行的不同操作。介绍完批处理操作后会介绍扫描技术,这是HBase中一个非常重要的操作,类似于关系型数据库中的游标,使用到...原创 2019-05-04 18:52:54 · 696 阅读 · 0 评论 -
HBase学习之路(二):Java客户端的CRUD操作详讲
内容简介一、概述二、操作前的准备三、put操作四、get操作五、delete操作六、总结一、概述HBase作为一个数据库最常见的交互方式是使用JavaAPI与其交互,HBase提供给客户端非常丰富的JavaAPI对数据库进行增删改查等操作。事实上,HBase的主要客户端接口是由org.apache.hadoop.hbase.client包中的HTable提供,我们可以通过这个类向HBase读...原创 2019-05-04 00:31:51 · 724 阅读 · 0 评论 -
Hadoop学习之路(八):MapReduce进阶案例之寻找社交共同好友
内容简介一、需求分析二、算法分析三、编写代码1.构建Java工程,引入Maven支持2.编写第一阶段MapReduce作业代码3.编写第二阶段MapReduce作业代码4.将作业代码打包并提交到集群5.将friend.txt上传至HDFS6.运行第一阶段作业,查看结果7.运行第二阶段作业,查看结果四、总结一、需求分析社交软件的盛行让我们的生活越来越便捷,我们经常使用社交软件添加好友,即每个人...原创 2019-04-27 14:57:47 · 1132 阅读 · 3 评论 -
HBase学习之路(一):HBase的基本概念与HBase完全分布式搭建
内容简介一、初识HBase1.什么是HBase2.为什么会诞生HBase3.HBase与Hive的区别二、HBase完全分布式的搭建1.安装前须知2.下载并解压HBase安装包3.配置环境变量4.配置HBase的配置文件5.启动集群并测试三、总结一、初识HBase1.什么是HBaseHBase是一个分布式的、面向列的建立在Hadoop之上的开源非关系型数据库,该技术来源于 Fay Chan...原创 2019-04-25 21:06:25 · 696 阅读 · 4 评论 -
Hadoop学习之路(七):理解Hadoop三大核心组件之MapReduce
内容简介一、MapReduce简介二、MapReduce核心阶段1. Map2. Shuffle3. Reduce三、MapReduce作业运行过程1. 作业提交2. 作业初始化3. 任务分配4. 任务执行5. 作业完成四、总结一、MapReduce简介MapReduce是一种编程模型,用于大规模数据集的并行运算,它是Hadoop的三大核心组件之一,承担着Hadoop的计算工作。概念"Map(...原创 2019-04-24 23:26:15 · 1403 阅读 · 0 评论 -
Spark项目实战:购物网站评价标签生成(非常详细的Spark算子操作)
实战概览一、项目简介1. 需求2. 内容二、项目的开发环境三、项目代码编写1. 项目搭建2. 分析原始的数据3. 编写JSON解析类4. 编写数据处理类5. 将项目打包成jar提交到集群四、运行结果五、总结一、项目简介1. 需求如今我们已经离不开没有电商的生活,在上面购物后会做出相应的评价,电商会为那些评价打上标签,比如这样:通过评价抽取标签有多种方法,有人工方法抽取,机器抽取等等,现标...原创 2019-04-09 10:56:35 · 2659 阅读 · 6 评论 -
Spark项目实战:大数据实时流处理日志(非常详细)
实战概览一、实战内容二、大数据实时流处理分析系统简介1.需求2.背景及架构三、实战所用到的架构和涉及的知识1.后端架构2.前端框架四、项目实战1.后端开发实战1.构建项目2.引入依赖3.创建工程包结构4.编写代码5.编写pytohn脚本产生数据6.创建日志存放目录并编写Flume的配置文件7.创建Kafka主题8.在HBase中创建项目需要的表9.测试后端代码2.前端开发实战1.构建工程2.引入依...原创 2019-04-02 18:51:07 · 33796 阅读 · 35 评论 -
Hive学习之路(五):使用自义定函数UDF完成日志数据统计
内容简介一、Hive自定义函数UDF简介二、数据准备1.分析日志数据2.需求3.创建原始数据表并导入数据三、使用自义定函数完成日志数据统计1.创建Java工程,添加Maven支持2.创建类LogParser并编写代码3.将代码打包并提交4.执行程序查看结果四、总结一、Hive自定义函数UDF简介上一节中,介绍了许多Hive的内置函数,并使用Hive的内置函数实现了WordCount,Hive的...原创 2019-04-16 23:08:17 · 1382 阅读 · 0 评论 -
Hive学习之路(四):Hive内置函数介绍与实现WordCount
内容简介一、Hive内置函数介绍二、Hive常用内置函数介绍1.数值计算函数2.字符串操作函数3.日期函数4.聚合函数5.表生成函数三、使用Hive函数完成WordCount1.创建表并将数据导入2.编写SQL句并执行四、总结一、Hive内置函数介绍Hive为编程人员提供了大量的内置函数,为编程提供了极大的便利,进入hive shell下输入命令:show functions可查看所有Hive...原创 2019-04-16 23:14:35 · 833 阅读 · 0 评论 -
Hive学习之路(三):hiveserver2的启动与使用
操作内容简介一、hiveserver2简介二、使用hiveserver2服务1.启动hiveserver2服务2.启动beeline连接server3.使用JDBC协议连接server1.构建Java工程,添加Maven支持2.创建并编写HiveServerTest类三、总结一、hiveserver2简介Hive在生产上是不需要部署集群的,操作Hive只需要通过它提供的客户端即可,Hive提供...原创 2019-04-13 18:22:48 · 21160 阅读 · 5 评论 -
Hive学习之路(二):Hive表操作详讲
操作内容简介一、操作前的准备二、Hive操作详讲1. 创建数据库2. 查看所有数据库/表3. 在Hive上直接操作HDFS4. 在Hive上直接执行终端命令5. 创建数据表/查看表的信息1.普通管理表2.分区表3.桶表4.外部表6. 导入数据进表1.普通管理表2.分区表3.桶表4.外部表7.复制表1.仅复制表结构2.复制表结构及数据8. 创建视图三、总结一、操作前的准备本演示的所有操作所用的H...原创 2019-04-13 12:18:32 · 1343 阅读 · 0 评论 -
Hive学习之路(一):Hive的基本概念与安装配置
内容简介一、初识Hive1.Hive的基本概念2.Hive的适用场景3.Hive执行作业的过程4.Hive与HBase的区别二、Hive的安装与配置1.内嵌模式2.本地模式3.远程模式三、总结一、初识Hive1.Hive的基本概念Hive是Apache社区的开源项目,是建立在Hadoop之上的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql...原创 2019-04-12 18:06:25 · 964 阅读 · 0 评论 -
Hadoop学习之路(六):理解Hadoop三大核心组件之HDFS
内容简介一、分布式文件系统简介二、HDFS的设计三、HDFS的概念1.数据块2.namenode、datanode和secondarynamenode3.HDFS的高可用四、HDFS的常用命令1. hdfs namenode -format2. hdfs dfs3. hdfs dfsadmin五、HDFS的读写流程1. HDFS的读取1. HDFS的写入六、总结一、分布式文件系统简介一般而言...原创 2019-04-19 22:13:47 · 1552 阅读 · 0 评论 -
Hadoop学习之路(五):Hadoop交互关系型数据库(MySQL)
内容简介原创 2019-04-18 14:24:51 · 1697 阅读 · 0 评论 -
Hadoop学习之路(四):Hadoop排序之全排序的原理及实现
Hadoop实现全排序一、全排序简介二、全排序的原理三、准备数据四、全排序的实现1.创建Java工程,添加Maven支持2.编写Map类3.编写Reduce类4.编写作业主类5.将代码打包提交到集群6.运行程序五、总结一、全排序简介全排序其实就是全局排序,就是使得所有数据按序排列输出,和我们平常做的给一个数组排序没有什么区别,唯一的区别就是数据量的不同,这里涉及的数据量是TB级别的,这就意味着...原创 2019-04-15 14:09:42 · 2944 阅读 · 0 评论 -
Hadoop学习之路(三):Hadoop排序之二次排序的原理及实现
Hadoop实现二次排序一、二次排序简介二、二次排序的原理三、二次排序的实现1.构建Java工程,添加Maven支持1.编写ComboKey类2.编写分区类3.编写排序对比器类4.编写分组对比器类5.编写Map类6.编写Reducer类7.编写主类8.打包代码在集群运行四、总结一、二次排序简介MapReduce框架在记录到达Reducer之前按键对进行排序,但是键对所对应的值没有被排序。甚至在...原创 2019-04-06 19:15:46 · 1670 阅读 · 0 评论 -
Hadoop学习之路(二):Hadoop节点的委任与解除
Hadoop节点的委任与解除一、节点的委任与解除简介二、使用的机器及思路过程三、解除旧节点四、委任新节点五、总结一、节点的委任与解除简介Hadoop集群的管理员需要经常往集群添加新节点,或者从集群移除旧的节点,为了扩大存储容量需要委任新的节点,相反地,如果需要缩小集群规模则需要解节点,或者当某个节点存在故障的风险时,需要解除该节点并且委任新的节点,从而便有了Hadoop集群节点的委任与解除(也...原创 2019-04-05 16:23:55 · 748 阅读 · 0 评论 -
Hadoop学习之路(一):Hadoop完全分布式搭建(附带实用集群管理脚本)
Hadoop完全分布式搭建一、Hadoop搭建方式简介1.本地模式2. 伪分布式3. 完全分布式二、Hadoop完全分布式搭建所用到的组件三、Hadoop完全分布式搭建1.安装JDK2.编写host文件3.配置ssh无秘通信4.下载并并安装Hadoop5.配置Hadoop的配置文件6.分发文件到其他节点7.格式化并启动集群四、编写两个非常有用的脚本管理集群1.分发文件到各个节点的脚本2.各个节点同...原创 2019-04-04 18:43:54 · 1807 阅读 · 0 评论