自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 kafka的介绍和安装配置

Apache Kafka是分布式发布-订阅消息系统,是一个消息中间件框架,是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。基本框架:    它的架构包括以下组件:1、话题(Topic):是特定类型的消息流。消息是字节的有效负载(Payload),话题是消息的分类名或种子(Feed)名;2、生产者(Producer):是能够发布消息到话题的任何对象;3、服务代理(Broke...

2018-04-26 20:38:02 459

转载 hdfs的高可用

HDFS的架构体系HDFS采用了主从模式(集中式管理)主:     1. Namenode 只有一个,它存在一个缺陷(单点故障).    2. 它是记录集群情况和集群文件存储的元数据    3. 解决缺陷方式:              a. 高可用方式,制作一个副Namenode ,这个副Namenode可不是SecondNamenode,            b. 俩个namenode的功能...

2018-04-24 21:08:51 608

原创 HDFS的读写文件流程

HDFS写流程:    客户端要向HDFS写数据,首先要和namenode进行通信来获得接受文件块(block)的datanode,然后客户端将按顺序将block逐个传到响应的datanode上,并由接收block的datanode负责像其他的datanode复制block的副本写入步骤详解:    1. 客户端向namenode请求上传文件, namenode检查目标文件是否存在,夫目录是否存在...

2018-04-24 21:06:08 556

原创 flume的介绍以及配置

关于Flume的介绍Flume 是一个日志收集系统 :        Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。是HADOOP生态圈的一个组件,主要应用与实时数据的流方式,比如一旦有某事件触发可以将实时的日志数据发向HADOOP文件系统HDFS中,   Flume可以将数量庞大的数据从各项数据资源集中起来存储的工具/服务,或数集中机制,所以它还有较强的缓冲作用,   ...

2018-04-24 18:16:30 545

原创 linux 里安装mysql与hive

mysql安装:1. 首先准备一个文件MySQL yum 仓库:附链接:点击打开链接下载好之后将它上传到linux里面2. 接着输入执行命令:rpm -Uvh mysql57-community-release-el7-11.noarch.rpm 3. 仓库安装好之后进行安下载安装mysql:yum install mysql-community-server -y4. 开启mysql:syste...

2018-04-22 22:57:21 2849 1

转载 spark sql 的介绍

        Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaRDDs由行对象组成,行对象拥有一个模式(scheme)来描述行中每一列的数据类型。SchemaRDD与关系型数据库中的表很相似。可以通过存在的RDD、一个Parquet文件、一个JSON数据库或者对存储在Apache Hiv...

2018-04-22 19:01:02 319

原创 pysaprk的使用

首先你要保证你已经安装成功了python和spark附连接:             pyspark的安装与配置              hadoop的安装要想使用pyspark 需要先开启hadoop:start-dfs.sh接着在命令框输入:jupyter-notebook -- ip 192.168.50.88 Jupyter Notebook(此前被称为 IPython noteboo...

2018-04-22 18:17:28 767

原创 pyspark的安装与配置

我们从pyspark就可以看出来 是python与spark俩者的结合,所以我们就需要在vm里面安装python,和spark第一步:    准备python此时的python 即 Anaconda 为一个.sh文件可以直接运行:bash Anaconda3-5.1.0-Linux-x86_64.sh当你运行后会发现有一个提示:    它是指当前没有安装bzip2,所以我们需要安装bzip2,不要...

2018-04-22 17:11:40 7053 1

原创 pyspark里面RDD的操作

RDD类型:    1. 并行集合(Parallelized Collections): 来自于分布式化的数据对象,比如用户自己键入的数据    2. 文件系统数据集: Hadoop Datasets 或文本文件,比如通过SparkContext.textFile()读取的数据因为RDD的俩种不同类型,所以我们使用文件有不同方式    1. 并行化集合是通过调用SparkContext的paral...

2018-04-10 17:54:34 33913 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除