自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Carroll的学习博客

这是一个菜鸡成长的故事

  • 博客(9)
  • 收藏
  • 关注

原创 Spark内核:RDD的算子

RDD的算子一般来说,RDD的整个计算过程都是发生在Worker节点中的Executor中的。RDD可以支持三种操作类型:Transformation、Action以及Persist和CheckPoint为代表的控制类型操作。RDD一般是从外部数据源读取数据的,经过多次的Transformation(中间应该有Persist和CheckPoint操作),最终通过Action类型的操作将结果写入到外部

2017-12-22 10:18:50 347

原创 Spark内核:RDD基础

RDD产生的背景MR程序每个hadoop作业都是从物理存储上加载数据,然后操作数据进行运算,最后写入到物理存储设备中。但是这样的话就无法复用曾经的计算结果或中间计算结果等。Hadoop每次作业多从磁盘上读写数据而且第二次作业的时候会再次从磁盘上读写数据。MR对两种应用的处理并不是很高效,一个是因为需要大量迭代的算法(图计算和机器学习),另一个是交互式数据挖掘工具(重复采集一个数据子集)。基于这两种情

2017-12-21 11:16:12 302

原创 自己的HADOOP平台(三):Mysql+hive远程模式+Spark on Yarn

Spark和hive配置较为简单,为了方便Spark对数据的使用与测试,因此在搭建Spark on Yarn模式的同时,也把Mysql + Hive一起搭建完成,并且配置Hive对Spark的支持,让Spark也能像Hive一样操作数据。前期准备scala-2.11.11.tgz spark-2.1.1-bin-hadoop2.7.tar.gz hive-1.2.1.tar.g

2017-12-08 11:31:43 990

原创 Spark Standalone模式搭建

Spark三种模式localon yarnstandalonespark的local模式不多做说明,on yarn模式就是将资源管理交给hadoop的yarn,自己本身只做计算与任务调度。而standalone则是自己本身成为一套系统,有自己的资源管理与调度器。 本篇博客主要讲述在虚拟机中搭建spark 集群(standalone),其主要采用Master/Slave(Worker)结构.

2017-12-07 11:13:40 2823 2

原创 Flume多节点的搭建

在前面的blog中,我们在5台虚拟机中搭建了flume的单节点,这篇博客主要讲述搭建flume-ng。-5台虚拟机 -apache-flume-1.6.0-bin.tar.gz1、在master节点上,解压压缩包到/usr/local下面tar -zxvf apache-flume-1.6.0-bin.tar.gz flume-1.7mv flume-1.7 /usr/local/2、配置环境

2017-11-28 18:32:00 1729

原创 自己的HADOOP平台(二):在Hadoop平台上搭载Flume

Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume的介绍请移步我的另外一个博客 http://blog.csdn.net/a5098726s/article/details/78657282单节点搭建为了方便测试和使用,这里采用flume单节点master节点apache-flume-1.7.0-

2017-11-28 18:03:57 257

原创 Flume基础概述

Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。Flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中运行机制Flume的核心就是一个agent,这个agent对外有两个进行交互的地方,一个是接受数据的输入——source

2017-11-28 17:23:45 391

原创 自己的HADOOP平台(一):HADOOP HA搭建

准备一些依赖包 hadoop-2.7.4-tar.gz zookeeper-3.4.6.tar.gz jdk-8u144-linux-x64.tar.gz虚拟机 centos-7 -86_64master 192.168.10.4 hadoop jdk master1 192.168.10.8 hadoop jdk slave1 192.168.10

2017-11-27 22:22:48 1097

原创 完成端口学习之简易聊天室

严格的来说吧,这个算是我学习C++后第一个写的不成熟的小程序,现在还没有毕业,一切的东西都算是学习中的小小动手玩乐。这个是基于SOCKET完成端口而实现的C/S简易聊天工具,没有前端界面,就代码而言应该来说是很冗余和漏洞百出的。贴出来的目的在于将来有所成长后,回头看看曾经写的所谓“学生式的代码”。

2017-07-11 11:43:50 405

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除