2018年04月_Se_cure

原创 kafka的介绍和安装配置

Apache Kafka是分布式发布-订阅消息系统,是一个消息中间件框架,是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。基本框架: 它的架构包括以下组件：1、话题（Topic）：是特定类型的消息流。消息是字节的有效负载（Payload），话题是消息的分类名或种子（Feed）名；2、生产者（Producer）：是能够发布消息到话题的任何对象；3、服务代理（Broke...

2018-04-26 20:38:02 459

转载 hdfs的高可用

HDFS的架构体系HDFS采用了主从模式(集中式管理)主: 1. Namenode 只有一个,它存在一个缺陷(单点故障). 2. 它是记录集群情况和集群文件存储的元数据 3. 解决缺陷方式: a. 高可用方式,制作一个副Namenode ,这个副Namenode可不是SecondNamenode, b. 俩个namenode的功能...

2018-04-24 21:08:51 608

原创 HDFS的读写文件流程

HDFS写流程: 客户端要向HDFS写数据,首先要和namenode进行通信来获得接受文件块(block)的datanode,然后客户端将按顺序将block逐个传到响应的datanode上,并由接收block的datanode负责像其他的datanode复制block的副本写入步骤详解: 1. 客户端向namenode请求上传文件, namenode检查目标文件是否存在,夫目录是否存在...

2018-04-24 21:06:08 556

原创 flume的介绍以及配置

关于Flume的介绍Flume 是一个日志收集系统 : Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。是HADOOP生态圈的一个组件,主要应用与实时数据的流方式,比如一旦有某事件触发可以将实时的日志数据发向HADOOP文件系统HDFS中, Flume可以将数量庞大的数据从各项数据资源集中起来存储的工具/服务,或数集中机制,所以它还有较强的缓冲作用, ...

2018-04-24 18:16:30 545

原创 linux 里安装mysql与hive

mysql安装:1. 首先准备一个文件MySQL yum 仓库：附链接:点击打开链接下载好之后将它上传到linux里面2. 接着输入执行命令:rpm -Uvh mysql57-community-release-el7-11.noarch.rpm 3. 仓库安装好之后进行安下载安装mysql:yum install mysql-community-server -y4. 开启mysql:syste...

2018-04-22 22:57:21 2849 1

转载 spark sql 的介绍

Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaRDDs由行对象组成，行对象拥有一个模式（scheme）来描述行中每一列的数据类型。SchemaRDD与关系型数据库中的表很相似。可以通过存在的RDD、一个Parquet文件、一个JSON数据库或者对存储在Apache Hiv...

2018-04-22 19:01:02 319

原创 pysaprk的使用

首先你要保证你已经安装成功了python和spark附连接: pyspark的安装与配置 hadoop的安装要想使用pyspark 需要先开启hadoop:start-dfs.sh接着在命令框输入:jupyter-notebook -- ip 192.168.50.88 Jupyter Notebook（此前被称为 IPython noteboo...

2018-04-22 18:17:28 767

原创 pyspark的安装与配置

我们从pyspark就可以看出来是python与spark俩者的结合,所以我们就需要在vm里面安装python,和spark第一步: 准备python此时的python 即 Anaconda 为一个.sh文件可以直接运行:bash Anaconda3-5.1.0-Linux-x86_64.sh当你运行后会发现有一个提示: 它是指当前没有安装bzip2,所以我们需要安装bzip2,不要...

2018-04-22 17:11:40 7053 1

原创 pyspark里面RDD的操作

RDD类型: 1. 并行集合(Parallelized Collections): 来自于分布式化的数据对象,比如用户自己键入的数据 2. 文件系统数据集: Hadoop Datasets 或文本文件,比如通过SparkContext.textFile()读取的数据因为RDD的俩种不同类型,所以我们使用文件有不同方式 1. 并行化集合是通过调用SparkContext的paral...

2018-04-10 17:54:34 33913 4

张张张