- 博客(21)
- 收藏
- 关注
原创 kafka原理详细介绍
Kafka Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。先给大家看下这幅图,让大家脑子里对kafka流程有个大致的印象 接下来这幅图就是比较细分的流程图了 首先kafka中的所有broker都要去...
2018-04-28 13:04:40 500
原创 使用flume将数据导入到hdfs中
在前面的博客上我说了flume就是三个最重要的地方,分别是分别是source、channel、sink,source是获取数据,channel是通道,传输数据的,sink是把数据给谁的,这里显而易见的是把数据给hdfs的,所以我们只需要在前面的基础上改sink就可以了在之前的基础上修改a.conf文件中的sink修改完后启动hadoop 查看进程是否开启,...
2018-04-26 19:46:49 7449 12
原创 flume的安装及使用
Flume是什么? Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。说白了flume就是可以从某个地方收集数据,再经过一个叫channel的通道后,将数据给某个东西,下面有张结构图,流程叫agent...
2018-04-26 18:30:18 595 3
原创 kafka的安装及使用
先来说下kafka是个什么东西,它是一个消息中间件框架,只负责发布--订阅(帮忙存东西的)接着给大家看一张大致的kafka流程图 首先打个比方,kafka好比就是中央电视台,而中央电视台下面有很多节目,生产者就是制作节目的团队,而消费者就是我们观看这个节目的人,一开始在zookeeper创建一个节目,假设就叫cctv1,有了这个节目名后,我们就得请一个团队来填充这个节目,...
2018-04-26 10:16:20 26493 2
转载 Hadoop运行原理详解
Hadoop 2.6 MapReduce运行原理详解 市面上的hadoop权威指南一类的都是老版本的书籍了,索性学习并翻译了下最新版的Hadoop:The Definitive Guide, 4th Edition与大家共同学习。 我们通过提交jar包,进行MapReduce处理,那么整个运行过程分为五个环节: 1、向client端提交MapReduce job. 2、随后yarn的Res...
2018-04-24 11:01:15 5559
原创 SparkRDD、SchemaRDD(dataFrame)和SparkSQL 之间的关系
普通数据--》SparkRDD-》SchemaRDD(dataFrame)-》sparkSQL 1. 普通数据的获取 首先我们要先获取到一些数据,有以下这些方法: a) 导入本地的文件 这种方法我也不会用,但是有这种,我们一般用后面那几种 ...
2018-04-22 17:56:02 2858
原创 在spark中将数据插入到hive、parquet表中及用户定义函数
在spark中将数据插入到hive表 步骤: 1. 创建数据集的sparkdataFrame 这里使用的是TmpDF = spark.createDataFrame(RDD, schema)这种方法创建的 2. 将数据集的dataFrame格式映射到临时表 使用createOrRepl...
2018-04-21 16:15:19 7063
转载 Hive简介
Hive是一个基于hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与 pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语...
2018-04-16 20:48:31 312
转载 HFDS文件目录
HDFS的文件目录图分析:从上图可以看出,HDFS的文件目录主要由NameNode、SecondaryNameNode和DataNode组成,而NameNode和DataNode之间由心跳机制通信。注:HDFS(Hadoop Distributed File System)默认的存储单位是128M的数据块。 可以执行命令vim /home/qingaolei/hadoop/hadoop-2.8.0...
2018-04-16 20:36:25 2977
原创 HDFS文件上传流程
HDFS运行流程图(图是盗的) 首先用户即客户端想要上传文件,就先要给namenode发个请求,告诉它说我要上传文件了(即写数据),然后namenode会返回一个响应,这个响应是namenode根据自身情况,比如会先查一下namenode里面还能存数据吗?能存多少?有几个datanode能存?(心跳信息)然后返回一个可以存储的节点列表,意思是这些里面能存,但不是能存的datanode全部...
2018-04-15 15:34:22 19194
原创 hadoop中各个节点的功能及HDFS文件上传流程图
Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的小的工作单元(块),并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出得、运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件系统(H...
2018-04-15 13:09:35 6091
原创 安装Hive及绑定MySQL
1. 将hive文件传输到Linux中hadoop用户目录下 然后将其解压至opt目录中 2. 解压好后进入其目录中,在一个conf目录下找到hive-default.xml.template这个文件,将其改名为hive-site.xml3. 接下来设置元数据库的数据地址、驱动、连接MySQL数据库的用户名密码、数据库存放位置等 vi 进入我们改名后的这个文件 ...
2018-04-14 21:59:08 458 1
原创 在Linux中安装MySQL
1. 使用xshell和xftp将本地下载好的MySQL传输到Linux中,我的MySQL版本是 mysql57-community-release-el7-11.noarch.rpm2. 下载MySQL yum 仓库,并安装 yum install mysql-community-server -y rpm -Uvh mysql57-commu...
2018-04-11 21:47:34 472
原创 SparkSQL和dataFrame简介和用法
SparkSQL 1. Spark中原生的RDD是没有数据结构的 2. 对RDD的变换和操作不能采用传统的SQL方法 3. SparkSQL应运而生并并建立在shark上,伯克利实验室spark生态环境的组件之一 4. SHARK最初很大程度上依赖性HIVE如语法解析器、查询优化器等 5....
2018-04-10 16:32:46 747
转载 hadoop伪集群之namenode和datanode未启动修改方法
今早一来,突然发现使用-put命令往HDFS里传数据传不上去了,抱一大堆错误,然后我使用bin/hadoop dfsadmin -report查看系统状态admin@adw1:/home/admin/joe.wangh/hadoop-0.19.2>bin/hadoop dfsadmin -reportConfigured Capacity: 0 (0 KB)Present Capacity:...
2018-04-10 11:28:04 598
原创 RDD之累加器
先给大家看个列子对比两种方法求和的结果,发现我们定义的函数来求和和我们使用累加器的结果一样,没错,累加器的作用就是对每一个RDD元素进行操作,累加器和分区有关系,其中的关系可以将accumulator(0)中0这个参数改变下或者设置分区来查看不同结果,这里就不一一说了,感兴趣的可以试下,设置分区可这样写:sc.partitions(2),这样分区就设置成两个分区了,但这还是和我们的实际分区有关,加...
2018-04-07 15:19:47 1174
原创 RDD之键值配对的连接变换
连接变换 join 内连接 rightOuterJoin 右连接 leftOuterJoin 左连接 cogroup 全连接 subtractByKey 减连接cogroup 和subtractByKey 得到的是一个迭代器,要再将它循环输出多次,直至得到值 ...
2018-04-07 15:10:41 618
原创 RDD操作之combineByKey
combineByKey combineByKey 接收三个参数,分别为createCombiner、mergeValue、mergeCombiners createCombiner:用于产生累加器键的初值。如lambda x:(x,1),实现输入RDD[(K,V)]中V到结果RDD[(K,C)]中C的转换,V 和...
2018-04-07 14:46:40 588 1
原创 spark介绍及RDD操作
Spark Spark的主要部件 Spark core:包含spark的主要功能。功能跟RDD有关的API都出自spark core Spark SQL:spark 中用于结构化数据处理的软件包。用户可以在spark环境下用SQL语言处理数据 Spark streaming:spark 中用于处理流数据的部件 MLlib :spark中...
2018-04-04 21:21:08 1378
原创 如何安装并使用pyspark
1. Anaconda的安装 (1)我们要把本地Anaconda上传到Linux上,我们使用xshell中的文件传输,它会自己运行xftp,前提是我们要有xftp上传后我们来运行这个文件,但我在运行过程中它提示我要安装一个bzip2的东西,我这里就先写一下吧 (2)安装bzip2 安装软件要切换到root用户下才能够使用,因为普通用户没这个权限 在ro...
2018-04-02 22:32:37 7459 1
原创 简单使用hadoop
我们在前面搭建好hadoop后,接下来就要使用该hadoop了,但是在hadoop下面什么都没有,连根目录都没有,这都要我们来创建 首先使用 hadoop fs -mkdir -p /user/gscsd我们在这里使用-p是逐步创建,先创建根目录/,然后在创建user目录,user目录下又创建了gscsd目录我们来查看下,看到以下这个就说明我们已经创建好目录了然后我们再接着上...
2018-04-02 21:35:12 576
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人