2018年04月_G_scsd

原创 kafka原理详细介绍

Kafka Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。先给大家看下这幅图，让大家脑子里对kafka流程有个大致的印象接下来这幅图就是比较细分的流程图了首先kafka中的所有broker都要去...

2018-04-28 13:04:40 500

原创使用flume将数据导入到hdfs中

在前面的博客上我说了flume就是三个最重要的地方，分别是分别是source、channel、sink，source是获取数据，channel是通道，传输数据的，sink是把数据给谁的，这里显而易见的是把数据给hdfs的，所以我们只需要在前面的基础上改sink就可以了在之前的基础上修改a.conf文件中的sink修改完后启动hadoop 查看进程是否开启，...

2018-04-26 19:46:49 7449 12

原创 flume的安装及使用

Flume是什么？ Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。说白了flume就是可以从某个地方收集数据，再经过一个叫channel的通道后，将数据给某个东西，下面有张结构图，流程叫agent...

2018-04-26 18:30:18 595 3

原创 kafka的安装及使用

先来说下kafka是个什么东西，它是一个消息中间件框架，只负责发布--订阅（帮忙存东西的）接着给大家看一张大致的kafka流程图首先打个比方，kafka好比就是中央电视台，而中央电视台下面有很多节目，生产者就是制作节目的团队，而消费者就是我们观看这个节目的人，一开始在zookeeper创建一个节目，假设就叫cctv1，有了这个节目名后，我们就得请一个团队来填充这个节目，...

2018-04-26 10:16:20 26493 2

Hadoop 2.6 MapReduce运行原理详解　　市面上的hadoop权威指南一类的都是老版本的书籍了，索性学习并翻译了下最新版的Hadoop:The Definitive Guide, 4th Edition与大家共同学习。　　我们通过提交jar包，进行MapReduce处理，那么整个运行过程分为五个环节：　　1、向client端提交MapReduce job.　　2、随后yarn的Res...

2018-04-24 11:01:15 5559

原创 SparkRDD、SchemaRDD（dataFrame）和SparkSQL 之间的关系

普通数据--》SparkRDD-》SchemaRDD（dataFrame）-》sparkSQL 1. 普通数据的获取首先我们要先获取到一些数据，有以下这些方法： a) 导入本地的文件这种方法我也不会用，但是有这种，我们一般用后面那几种 ...

2018-04-22 17:56:02 2858

原创在spark中将数据插入到hive、parquet表中及用户定义函数

在spark中将数据插入到hive表步骤： 1. 创建数据集的sparkdataFrame 这里使用的是TmpDF = spark.createDataFrame(RDD, schema)这种方法创建的 2. 将数据集的dataFrame格式映射到临时表使用createOrRepl...

2018-04-21 16:15:19 7063

转载 Hive简介

Hive是一个基于hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。Hive是Facebook 2008年8月刚开源的一个数据仓库框架，其系统目标与 pig 有相似之处，但它有一些Pig目前还不支持的机制，比如：更丰富的类型系统、更类似SQL的查询语...

2018-04-16 20:48:31 312

转载 HFDS文件目录

HDFS的文件目录图分析：从上图可以看出，HDFS的文件目录主要由NameNode、SecondaryNameNode和DataNode组成，而NameNode和DataNode之间由心跳机制通信。注：HDFS(Hadoop Distributed File System)默认的存储单位是128M的数据块。可以执行命令vim /home/qingaolei/hadoop/hadoop-2.8.0...

2018-04-16 20:36:25 2977

原创 HDFS文件上传流程

HDFS运行流程图（图是盗的）首先用户即客户端想要上传文件，就先要给namenode发个请求，告诉它说我要上传文件了（即写数据），然后namenode会返回一个响应，这个响应是namenode根据自身情况，比如会先查一下namenode里面还能存数据吗？能存多少？有几个datanode能存？（心跳信息）然后返回一个可以存储的节点列表，意思是这些里面能存，但不是能存的datanode全部...

2018-04-15 15:34:22 19194

原创 hadoop中各个节点的功能及HDFS文件上传流程图

Hadoop是一个能够对大量数据进行分布式处理的软件框架，实现了Google的MapReduce编程模型和框架，能够把应用程序分割成许多的小的工作单元（块），并把这些单元放到任何集群节点上执行。在MapReduce中，一个准备提交执行的应用程序称为“作业（job）”，而从一个作业划分出得、运行于各个计算节点的工作单元称为“任务（task）”。此外，Hadoop提供的分布式文件系统（H...

2018-04-15 13:09:35 6091

原创安装Hive及绑定MySQL

1. 将hive文件传输到Linux中hadoop用户目录下然后将其解压至opt目录中 2. 解压好后进入其目录中，在一个conf目录下找到hive-default.xml.template这个文件，将其改名为hive-site.xml3. 接下来设置元数据库的数据地址、驱动、连接MySQL数据库的用户名密码、数据库存放位置等 vi 进入我们改名后的这个文件 ...

2018-04-14 21:59:08 458 1

原创在Linux中安装MySQL

1. 使用xshell和xftp将本地下载好的MySQL传输到Linux中，我的MySQL版本是 mysql57-community-release-el7-11.noarch.rpm2. 下载MySQL yum 仓库，并安装 yum install mysql-community-server -y rpm -Uvh mysql57-commu...

2018-04-11 21:47:34 472

原创 SparkSQL和dataFrame简介和用法

SparkSQL 1. Spark中原生的RDD是没有数据结构的 2. 对RDD的变换和操作不能采用传统的SQL方法 3. SparkSQL应运而生并并建立在shark上，伯克利实验室spark生态环境的组件之一 4. SHARK最初很大程度上依赖性HIVE如语法解析器、查询优化器等 5....

2018-04-10 16:32:46 747

转载 hadoop伪集群之namenode和datanode未启动修改方法

今早一来，突然发现使用-put命令往HDFS里传数据传不上去了，抱一大堆错误，然后我使用bin/hadoop dfsadmin -report查看系统状态admin@adw1:/home/admin/joe.wangh/hadoop-0.19.2>bin/hadoop dfsadmin -reportConfigured Capacity: 0 (0 KB)Present Capacity:...

2018-04-10 11:28:04 598

原创 RDD之累加器

先给大家看个列子对比两种方法求和的结果，发现我们定义的函数来求和和我们使用累加器的结果一样，没错，累加器的作用就是对每一个RDD元素进行操作，累加器和分区有关系，其中的关系可以将accumulator(0)中0这个参数改变下或者设置分区来查看不同结果，这里就不一一说了，感兴趣的可以试下，设置分区可这样写：sc.partitions(2)，这样分区就设置成两个分区了，但这还是和我们的实际分区有关，加...

2018-04-07 15:19:47 1174

原创 RDD之键值配对的连接变换

连接变换 join 内连接 rightOuterJoin 右连接 leftOuterJoin 左连接 cogroup 全连接 subtractByKey 减连接cogroup 和subtractByKey 得到的是一个迭代器，要再将它循环输出多次，直至得到值 ...

2018-04-07 15:10:41 618

原创 RDD操作之combineByKey

combineByKey combineByKey 接收三个参数，分别为createCombiner、mergeValue、mergeCombiners createCombiner：用于产生累加器键的初值。如lambda x:(x,1)，实现输入RDD[(K,V)]中V到结果RDD[(K,C)]中C的转换，V 和...

2018-04-07 14:46:40 588 1

原创 spark介绍及RDD操作

Spark Spark的主要部件 Spark core:包含spark的主要功能。功能跟RDD有关的API都出自spark core Spark SQL：spark 中用于结构化数据处理的软件包。用户可以在spark环境下用SQL语言处理数据 Spark streaming：spark 中用于处理流数据的部件 MLlib ：spark中...

2018-04-04 21:21:08 1378

原创如何安装并使用pyspark

1. Anaconda的安装（1）我们要把本地Anaconda上传到Linux上，我们使用xshell中的文件传输，它会自己运行xftp,前提是我们要有xftp上传后我们来运行这个文件，但我在运行过程中它提示我要安装一个bzip2的东西，我这里就先写一下吧（2）安装bzip2 安装软件要切换到root用户下才能够使用，因为普通用户没这个权限在ro...

2018-04-02 22:32:37 7459 1

原创简单使用hadoop

我们在前面搭建好hadoop后，接下来就要使用该hadoop了，但是在hadoop下面什么都没有，连根目录都没有，这都要我们来创建首先使用 hadoop fs -mkdir -p /user/gscsd我们在这里使用-p是逐步创建，先创建根目录/，然后在创建user目录，user目录下又创建了gscsd目录我们来查看下，看到以下这个就说明我们已经创建好目录了然后我们再接着上...

2018-04-02 21:35:12 576

Gscsd的博客