自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 kafka介绍及运行原理

什么是kafkakafka是一个开源流处理平台,由java和scala编写。是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来同意线上和离线的消息处理,也是为了通过集群来提供实时的消息。简单的来说,它就是一个消息中间件,天然分布式、支持集群的,专注于数据吃的存放缓存的。相关术语broker(经纪人):kafka服...

2018-04-30 17:21:19 392

原创 kafka安装及使用

准备kafka版本: kafka_2.11-1.1.0.tgz将kafka解压在opt目录下(opt为hadoop用户下的目录)tar -zxvf kafka_2.11-1.1.0.tgz -C opt/注意,此命令执行条件:我的kafka在hadoop主体目录下,而opt在hadoop目录下。启动服务器解压好后到,先进入kafka目录 cd kafka_2.11-1.1.0因为zookeepe...

2018-04-27 00:13:38 6761 3

原创 flume 如何连接hdfs

准备1    启动dfs2    关闭防火墙3    主目录下创建需要监控的文件夹 连接hdfs在flume下的conf下创建a4.confvi conf/a4.test#注意,此命令在flume文件夹下编辑a4.conf#设置agent的source,sink,channela4.channels = c1a4.sinks = k1a4.sources =s1#设置sourcea4....

2018-04-26 21:21:15 2731

原创 在spark中将数据插入HIVE表

在spark中将数据插入HIVE表用spark导入到HIVE中效率较高    1    创建数据集的spark D啊他Frames:                        TmpDF=spark.createDataFrame(RDD,schema)                        这里schema是由StructFied函数定义的     2    将数据集的DataFra...

2018-04-26 16:19:04 50473 4

原创 flume简单介绍

什么是flume?        flume中文名是日志收集系统。由cloudera提供的一个分布式,高可靠,高可用的服务,用于分布式的海量日志的高效、收集聚合、移动系统,聚合和传输的系统是它的标志。简单的来说就是一个针对日志数据进行采集和汇总的工具,即把A移动到B。flume架构介绍        flume最简单的部署单元叫flume Agent,接收或生成数据并缓存数据知道最终写入到Agen...

2018-04-26 16:17:04 291

原创 HDFS的读写流程

HDFS写流程客户端发起写请求道namenode,namenode返回可使用的资源,客户端根据资源使用情况对要写入的数据分块,逐一上传块到datanode,datanode获取上传块数据并写入磁盘,完成后报告给namenode块信息,同时也告诉客户端写入成功,客户端继续后续快的写入,在此期间namenode接受到datanode的块写入完成信息之后根据备份数直到满1    首先客户端发起写请求到n...

2018-04-24 18:51:51 1030

原创 单节点Flume部署

准备    Flume版本: apache-flume-1.8.0-bin.tar.gz    解压Flume:    tar     -zxvf     apache-flume-1.8.0-bin.tar.gz配置文件    在Flume的conf下创建新文件a1.conf 并作如下编辑#定义agent的source channel sinksa1.sources = sr1a1.chan...

2018-04-24 12:52:41 641

原创 sparkSQL和DataFrame的简单介绍

sparkSQL    1    spark中原生的RDD是没有数据结构的    2    对RDD的变换和操作是不能采用传统的SQL方法    3    sparkSQL应运而生并建立在shark上,伯克利实验室spark生态环境的组件之一    4    shark最初很大程度上以来HIVE图语法解析器,查询优化器等    5    改进的spark SQL框架摆脱了对HIVE的依赖性,所以无...

2018-04-22 16:06:47 1283

原创 hive安装及绑定mysql

准备版本:hive2.3.2解压hive    命令:tar -zxvf hive2.3.2解压好后,hive下conf需要一个hive-site.xml文件,hive目录中没有,需要复制hive-default.xml.template  为hive-site.xml    命令:cp hive-default.xml.template  hive-site.sh设置hive环境变量进入hive...

2018-04-17 22:54:54 410

原创 hive 遇到的两个问题

其一,启动hive时报错如下:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因:hive下的conf文件夹下的 hive-env.sh中HADOOP路径出现问题。解决方法:进入 hive下的conf文件夹,复制hive-env.sh....

2018-04-14 22:29:27 1629

原创 linux下安装MYSQL

准备MYSQL版本:    mysql57-community-release-el7-11.noarch.rpm  LINUX版本把安装包放在用户hadoop主目录下。安装MYSQL YUM仓库并安装安装mysql数据库:    命令:rpm -Uvh  mysql57-community-release-el7-11.noarch.rpm下载mysql yum仓库    命令:    yum ...

2018-04-14 15:10:50 222

原创 如何删除inux系统中的mysql

今天刚接触在linux系统下安装mysql,结果犯了一个错误,导致无法获取临时密码,万般无奈,只能删除数据库。和平时的删除不同,需要先找到有多少个mysql包,然后再逐步删除。一:查找到mysql包   查找命令: rpm -qa | grep -i mysql               二:删除mysql包    接着删除找出的mysql文件。    删除命令:rpm -ev   包名 如果出...

2018-04-11 23:25:10 208

原创 【VMware】无法连接 MKS: 套接字连接尝试次数太多:正在放弃。

博主今天早起,打开VMware的时候突然弹出:【VMware】无法连接 MKS: 套接字连接尝试次数太多:正在放弃。我也是第一次遇到这种问题,我尝试了很多种方法,甚至打算卸载重新安装。后来发现这是因为 VMware Authorization Service没有启动,需要手动启动才行。方法如下:进入        计算机管理→控制面板→系统和安全→管理工具双击服务 再启动VMware Author...

2018-04-08 10:35:35 283

原创 spark配置安装,和jupyter的安装

在配置之前,先准备好:              spark-2.2.0-bin-hadoop2.7.tgz               Anaconda3-5.1.0-Linux-x86_64.sh解压spark:              tar -zxvf spark-2.2.0-bin-hadoop2.7配置spark环境:                           echo  ...

2018-04-07 23:20:05 1557

原创 linux --centOS下构建hadoop集群(伪分布式)

创建用户及准备在构建hadoop之前,创建一个hadoop用户,并通过passwd hadoop给用户设置密码。接着使用su hadoop切换到hadoop用户:并且切换到主目录下创建一个dir 命名为opt。创建好了目录,上传两个压缩包至opt,分别是:---hadoop-2.7.5.tar.gz---jdk-8u152-linux-x64.tar.gztar -zxvf  hadoop-2.7...

2018-04-01 10:11:16 165

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除