- 博客(15)
- 收藏
- 关注
原创 kafka介绍及运行原理
什么是kafkakafka是一个开源流处理平台,由java和scala编写。是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来同意线上和离线的消息处理,也是为了通过集群来提供实时的消息。简单的来说,它就是一个消息中间件,天然分布式、支持集群的,专注于数据吃的存放缓存的。相关术语broker(经纪人):kafka服...
2018-04-30 17:21:19 392
原创 kafka安装及使用
准备kafka版本: kafka_2.11-1.1.0.tgz将kafka解压在opt目录下(opt为hadoop用户下的目录)tar -zxvf kafka_2.11-1.1.0.tgz -C opt/注意,此命令执行条件:我的kafka在hadoop主体目录下,而opt在hadoop目录下。启动服务器解压好后到,先进入kafka目录 cd kafka_2.11-1.1.0因为zookeepe...
2018-04-27 00:13:38 6761 3
原创 flume 如何连接hdfs
准备1 启动dfs2 关闭防火墙3 主目录下创建需要监控的文件夹 连接hdfs在flume下的conf下创建a4.confvi conf/a4.test#注意,此命令在flume文件夹下编辑a4.conf#设置agent的source,sink,channela4.channels = c1a4.sinks = k1a4.sources =s1#设置sourcea4....
2018-04-26 21:21:15 2731
原创 在spark中将数据插入HIVE表
在spark中将数据插入HIVE表用spark导入到HIVE中效率较高 1 创建数据集的spark D啊他Frames: TmpDF=spark.createDataFrame(RDD,schema) 这里schema是由StructFied函数定义的 2 将数据集的DataFra...
2018-04-26 16:19:04 50473 4
原创 flume简单介绍
什么是flume? flume中文名是日志收集系统。由cloudera提供的一个分布式,高可靠,高可用的服务,用于分布式的海量日志的高效、收集聚合、移动系统,聚合和传输的系统是它的标志。简单的来说就是一个针对日志数据进行采集和汇总的工具,即把A移动到B。flume架构介绍 flume最简单的部署单元叫flume Agent,接收或生成数据并缓存数据知道最终写入到Agen...
2018-04-26 16:17:04 291
原创 HDFS的读写流程
HDFS写流程客户端发起写请求道namenode,namenode返回可使用的资源,客户端根据资源使用情况对要写入的数据分块,逐一上传块到datanode,datanode获取上传块数据并写入磁盘,完成后报告给namenode块信息,同时也告诉客户端写入成功,客户端继续后续快的写入,在此期间namenode接受到datanode的块写入完成信息之后根据备份数直到满1 首先客户端发起写请求到n...
2018-04-24 18:51:51 1030
原创 单节点Flume部署
准备 Flume版本: apache-flume-1.8.0-bin.tar.gz 解压Flume: tar -zxvf apache-flume-1.8.0-bin.tar.gz配置文件 在Flume的conf下创建新文件a1.conf 并作如下编辑#定义agent的source channel sinksa1.sources = sr1a1.chan...
2018-04-24 12:52:41 641
原创 sparkSQL和DataFrame的简单介绍
sparkSQL 1 spark中原生的RDD是没有数据结构的 2 对RDD的变换和操作是不能采用传统的SQL方法 3 sparkSQL应运而生并建立在shark上,伯克利实验室spark生态环境的组件之一 4 shark最初很大程度上以来HIVE图语法解析器,查询优化器等 5 改进的spark SQL框架摆脱了对HIVE的依赖性,所以无...
2018-04-22 16:06:47 1283
原创 hive安装及绑定mysql
准备版本:hive2.3.2解压hive 命令:tar -zxvf hive2.3.2解压好后,hive下conf需要一个hive-site.xml文件,hive目录中没有,需要复制hive-default.xml.template 为hive-site.xml 命令:cp hive-default.xml.template hive-site.sh设置hive环境变量进入hive...
2018-04-17 22:54:54 410
原创 hive 遇到的两个问题
其一,启动hive时报错如下:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因:hive下的conf文件夹下的 hive-env.sh中HADOOP路径出现问题。解决方法:进入 hive下的conf文件夹,复制hive-env.sh....
2018-04-14 22:29:27 1629
原创 linux下安装MYSQL
准备MYSQL版本: mysql57-community-release-el7-11.noarch.rpm LINUX版本把安装包放在用户hadoop主目录下。安装MYSQL YUM仓库并安装安装mysql数据库: 命令:rpm -Uvh mysql57-community-release-el7-11.noarch.rpm下载mysql yum仓库 命令: yum ...
2018-04-14 15:10:50 222
原创 如何删除inux系统中的mysql
今天刚接触在linux系统下安装mysql,结果犯了一个错误,导致无法获取临时密码,万般无奈,只能删除数据库。和平时的删除不同,需要先找到有多少个mysql包,然后再逐步删除。一:查找到mysql包 查找命令: rpm -qa | grep -i mysql 二:删除mysql包 接着删除找出的mysql文件。 删除命令:rpm -ev 包名 如果出...
2018-04-11 23:25:10 208
原创 【VMware】无法连接 MKS: 套接字连接尝试次数太多:正在放弃。
博主今天早起,打开VMware的时候突然弹出:【VMware】无法连接 MKS: 套接字连接尝试次数太多:正在放弃。我也是第一次遇到这种问题,我尝试了很多种方法,甚至打算卸载重新安装。后来发现这是因为 VMware Authorization Service没有启动,需要手动启动才行。方法如下:进入 计算机管理→控制面板→系统和安全→管理工具双击服务 再启动VMware Author...
2018-04-08 10:35:35 283
原创 spark配置安装,和jupyter的安装
在配置之前,先准备好: spark-2.2.0-bin-hadoop2.7.tgz Anaconda3-5.1.0-Linux-x86_64.sh解压spark: tar -zxvf spark-2.2.0-bin-hadoop2.7配置spark环境: echo ...
2018-04-07 23:20:05 1557
原创 linux --centOS下构建hadoop集群(伪分布式)
创建用户及准备在构建hadoop之前,创建一个hadoop用户,并通过passwd hadoop给用户设置密码。接着使用su hadoop切换到hadoop用户:并且切换到主目录下创建一个dir 命名为opt。创建好了目录,上传两个压缩包至opt,分别是:---hadoop-2.7.5.tar.gz---jdk-8u152-linux-x64.tar.gztar -zxvf hadoop-2.7...
2018-04-01 10:11:16 165
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人