自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Gscsd的博客

学无止境

  • 博客(21)
  • 收藏
  • 关注

原创 kafka原理详细介绍

Kafka      Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。先给大家看下这幅图,让大家脑子里对kafka流程有个大致的印象             接下来这幅图就是比较细分的流程图了      首先kafka中的所有broker都要去...

2018-04-28 13:04:40 499

原创 使用flume将数据导入到hdfs中

      在前面的博客上我说了flume就是三个最重要的地方,分别是分别是source、channel、sink,source是获取数据,channel是通道,传输数据的,sink是把数据给谁的,这里显而易见的是把数据给hdfs的,所以我们只需要在前面的基础上改sink就可以了在之前的基础上修改a.conf文件中的sink修改完后启动hadoop                查看进程是否开启,...

2018-04-26 19:46:49 7430 12

原创 flume的安装及使用

  Flume是什么?      Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。说白了flume就是可以从某个地方收集数据,再经过一个叫channel的通道后,将数据给某个东西,下面有张结构图,流程叫agent...

2018-04-26 18:30:18 593 3

原创 kafka的安装及使用

先来说下kafka是个什么东西,它是一个消息中间件框架,只负责发布--订阅(帮忙存东西的)接着给大家看一张大致的kafka流程图              首先打个比方,kafka好比就是中央电视台,而中央电视台下面有很多节目,生产者就是制作节目的团队,而消费者就是我们观看这个节目的人,一开始在zookeeper创建一个节目,假设就叫cctv1,有了这个节目名后,我们就得请一个团队来填充这个节目,...

2018-04-26 10:16:20 26478 2

转载 Hadoop运行原理详解

Hadoop 2.6 MapReduce运行原理详解  市面上的hadoop权威指南一类的都是老版本的书籍了,索性学习并翻译了下最新版的Hadoop:The Definitive Guide, 4th Edition与大家共同学习。  我们通过提交jar包,进行MapReduce处理,那么整个运行过程分为五个环节:  1、向client端提交MapReduce job.  2、随后yarn的Res...

2018-04-24 11:01:15 5555

原创 SparkRDD、SchemaRDD(dataFrame)和SparkSQL 之间的关系

              普通数据--》SparkRDD-》SchemaRDD(dataFrame)-》sparkSQL          1. 普通数据的获取        首先我们要先获取到一些数据,有以下这些方法:             a)  导入本地的文件                    这种方法我也不会用,但是有这种,我们一般用后面那几种                   ...

2018-04-22 17:56:02 2853

原创 在spark中将数据插入到hive、parquet表中及用户定义函数

在spark中将数据插入到hive表      步骤:            1. 创建数据集的sparkdataFrame                这里使用的是TmpDF = spark.createDataFrame(RDD, schema)这种方法创建的            2. 将数据集的dataFrame格式映射到临时表                使用createOrRepl...

2018-04-21 16:15:19 7059

转载 Hive简介

Hive是一个基于hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与 pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语...

2018-04-16 20:48:31 311

转载 HFDS文件目录

HDFS的文件目录图分析:从上图可以看出,HDFS的文件目录主要由NameNode、SecondaryNameNode和DataNode组成,而NameNode和DataNode之间由心跳机制通信。注:HDFS(Hadoop Distributed File System)默认的存储单位是128M的数据块。 可以执行命令vim /home/qingaolei/hadoop/hadoop-2.8.0...

2018-04-16 20:36:25 2973

原创 HDFS文件上传流程

HDFS运行流程图(图是盗的)      首先用户即客户端想要上传文件,就先要给namenode发个请求,告诉它说我要上传文件了(即写数据),然后namenode会返回一个响应,这个响应是namenode根据自身情况,比如会先查一下namenode里面还能存数据吗?能存多少?有几个datanode能存?(心跳信息)然后返回一个可以存储的节点列表,意思是这些里面能存,但不是能存的datanode全部...

2018-04-15 15:34:22 19186

原创 hadoop中各个节点的功能及HDFS文件上传流程图

       Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的小的工作单元(块),并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出得、运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件系统(H...

2018-04-15 13:09:35 6083

原创 安装Hive及绑定MySQL

1. 将hive文件传输到Linux中hadoop用户目录下   然后将其解压至opt目录中          2. 解压好后进入其目录中,在一个conf目录下找到hive-default.xml.template这个文件,将其改名为hive-site.xml3. 接下来设置元数据库的数据地址、驱动、连接MySQL数据库的用户名密码、数据库存放位置等     vi 进入我们改名后的这个文件    ...

2018-04-14 21:59:08 457 1

原创 在Linux中安装MySQL

1.  使用xshell和xftp将本地下载好的MySQL传输到Linux中,我的MySQL版本是          mysql57-community-release-el7-11.noarch.rpm2.  下载MySQL yum 仓库,并安装        yum install mysql-community-server -y        rpm -Uvh  mysql57-commu...

2018-04-11 21:47:34 470

原创 SparkSQL和dataFrame简介和用法

SparkSQL            1. Spark中原生的RDD是没有数据结构的            2. 对RDD的变换和操作不能采用传统的SQL方法            3. SparkSQL应运而生并并建立在shark上,伯克利实验室spark生态环境的组件之一            4. SHARK最初很大程度上依赖性HIVE如语法解析器、查询优化器等            5....

2018-04-10 16:32:46 745

转载 hadoop伪集群之namenode和datanode未启动修改方法

今早一来,突然发现使用-put命令往HDFS里传数据传不上去了,抱一大堆错误,然后我使用bin/hadoop dfsadmin -report查看系统状态admin@adw1:/home/admin/joe.wangh/hadoop-0.19.2>bin/hadoop dfsadmin -reportConfigured Capacity: 0 (0 KB)Present Capacity:...

2018-04-10 11:28:04 595

原创 RDD之累加器

先给大家看个列子对比两种方法求和的结果,发现我们定义的函数来求和和我们使用累加器的结果一样,没错,累加器的作用就是对每一个RDD元素进行操作,累加器和分区有关系,其中的关系可以将accumulator(0)中0这个参数改变下或者设置分区来查看不同结果,这里就不一一说了,感兴趣的可以试下,设置分区可这样写:sc.partitions(2),这样分区就设置成两个分区了,但这还是和我们的实际分区有关,加...

2018-04-07 15:19:47 1171

原创 RDD之键值配对的连接变换

     连接变换         join           内连接         rightOuterJoin 右连接           leftOuterJoin  左连接         cogroup        全连接         subtractByKey  减连接cogroup 和subtractByKey  得到的是一个迭代器,要再将它循环输出多次,直至得到值    ...

2018-04-07 15:10:41 615

原创 RDD操作之combineByKey

combineByKey   combineByKey  接收三个参数,分别为createCombiner、mergeValue、mergeCombiners      createCombiner:用于产生累加器键的初值。如lambda x:(x,1),实现输入RDD[(K,V)]中V到结果RDD[(K,C)]中C的转换,V                                   和...

2018-04-07 14:46:40 586 1

原创 spark介绍及RDD操作

Spark   Spark的主要部件        Spark core:包含spark的主要功能。功能跟RDD有关的API都出自spark core        Spark SQL:spark 中用于结构化数据处理的软件包。用户可以在spark环境下用SQL语言处理数据        Spark streaming:spark 中用于处理流数据的部件        MLlib  :spark中...

2018-04-04 21:21:08 1375

原创 如何安装并使用pyspark

1. Anaconda的安装      (1)我们要把本地Anaconda上传到Linux上,我们使用xshell中的文件传输,它会自己运行xftp,前提是我们要有xftp上传后我们来运行这个文件,但我在运行过程中它提示我要安装一个bzip2的东西,我这里就先写一下吧   (2)安装bzip2         安装软件要切换到root用户下才能够使用,因为普通用户没这个权限         在ro...

2018-04-02 22:32:37 7445 1

原创 简单使用hadoop

我们在前面搭建好hadoop后,接下来就要使用该hadoop了,但是在hadoop下面什么都没有,连根目录都没有,这都要我们来创建  首先使用          hadoop  fs -mkdir -p /user/gscsd我们在这里使用-p是逐步创建,先创建根目录/,然后在创建user目录,user目录下又创建了gscsd目录我们来查看下,看到以下这个就说明我们已经创建好目录了然后我们再接着上...

2018-04-02 21:35:12 574

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除