2018年04月___顾影自怜

原创 kafka介绍及运行原理

什么是kafkakafka是一个开源流处理平台，由java和scala编写。是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来同意线上和离线的消息处理，也是为了通过集群来提供实时的消息。简单的来说，它就是一个消息中间件，天然分布式、支持集群的，专注于数据吃的存放缓存的。相关术语broker（经纪人）：kafka服...

2018-04-30 17:21:19 392

原创 kafka安装及使用

准备kafka版本： kafka_2.11-1.1.0.tgz将kafka解压在opt目录下（opt为hadoop用户下的目录）tar -zxvf kafka_2.11-1.1.0.tgz -C opt/注意，此命令执行条件：我的kafka在hadoop主体目录下，而opt在hadoop目录下。启动服务器解压好后到,先进入kafka目录 cd kafka_2.11-1.1.0因为zookeepe...

2018-04-27 00:13:38 6761 3

原创 flume 如何连接hdfs

准备1 启动dfs2 关闭防火墙3 主目录下创建需要监控的文件夹连接hdfs在flume下的conf下创建a4.confvi conf/a4.test#注意，此命令在flume文件夹下编辑a4.conf#设置agent的source，sink，channela4.channels = c1a4.sinks = k1a4.sources =s1#设置sourcea4....

2018-04-26 21:21:15 2731

原创在spark中将数据插入HIVE表

在spark中将数据插入HIVE表用spark导入到HIVE中效率较高 1 创建数据集的spark D啊他Frames: TmpDF=spark.createDataFrame(RDD,schema) 这里schema是由StructFied函数定义的 2 将数据集的DataFra...

2018-04-26 16:19:04 50473 4

原创 flume简单介绍

什么是flume？ flume中文名是日志收集系统。由cloudera提供的一个分布式，高可靠，高可用的服务，用于分布式的海量日志的高效、收集聚合、移动系统，聚合和传输的系统是它的标志。简单的来说就是一个针对日志数据进行采集和汇总的工具，即把A移动到B。flume架构介绍 flume最简单的部署单元叫flume Agent，接收或生成数据并缓存数据知道最终写入到Agen...

2018-04-26 16:17:04 291

原创 HDFS的读写流程

HDFS写流程客户端发起写请求道namenode，namenode返回可使用的资源，客户端根据资源使用情况对要写入的数据分块，逐一上传块到datanode,datanode获取上传块数据并写入磁盘，完成后报告给namenode块信息，同时也告诉客户端写入成功，客户端继续后续快的写入，在此期间namenode接受到datanode的块写入完成信息之后根据备份数直到满1 首先客户端发起写请求到n...

2018-04-24 18:51:51 1030

原创单节点Flume部署

准备 Flume版本： apache-flume-1.8.0-bin.tar.gz 解压Flume: tar -zxvf apache-flume-1.8.0-bin.tar.gz配置文件在Flume的conf下创建新文件a1.conf 并作如下编辑#定义agent的source channel sinksa1.sources = sr1a1.chan...

2018-04-24 12:52:41 641

原创 sparkSQL和DataFrame的简单介绍

sparkSQL 1 spark中原生的RDD是没有数据结构的 2 对RDD的变换和操作是不能采用传统的SQL方法 3 sparkSQL应运而生并建立在shark上，伯克利实验室spark生态环境的组件之一 4 shark最初很大程度上以来HIVE图语法解析器，查询优化器等 5 改进的spark SQL框架摆脱了对HIVE的依赖性，所以无...

2018-04-22 16:06:47 1283

原创 hive安装及绑定mysql

准备版本：hive2.3.2解压hive 命令：tar -zxvf hive2.3.2解压好后，hive下conf需要一个hive-site.xml文件，hive目录中没有，需要复制hive-default.xml.template 为hive-site.xml 命令：cp hive-default.xml.template hive-site.sh设置hive环境变量进入hive...

2018-04-17 22:54:54 410

原创 hive 遇到的两个问题

其一，启动hive时报错如下：Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因：hive下的conf文件夹下的 hive-env.sh中HADOOP路径出现问题。解决方法：进入 hive下的conf文件夹,复制hive-env.sh....

2018-04-14 22:29:27 1629

原创 linux下安装MYSQL

准备MYSQL版本： mysql57-community-release-el7-11.noarch.rpm LINUX版本把安装包放在用户hadoop主目录下。安装MYSQL YUM仓库并安装安装mysql数据库：命令：rpm -Uvh mysql57-community-release-el7-11.noarch.rpm下载mysql yum仓库命令： yum ...

2018-04-14 15:10:50 222

原创如何删除inux系统中的mysql

今天刚接触在linux系统下安装mysql，结果犯了一个错误，导致无法获取临时密码，万般无奈，只能删除数据库。和平时的删除不同，需要先找到有多少个mysql包，然后再逐步删除。一：查找到mysql包查找命令： rpm -qa | grep -i mysql 二：删除mysql包接着删除找出的mysql文件。删除命令：rpm -ev 包名如果出...

2018-04-11 23:25:10 208

原创【VMware】无法连接 MKS: 套接字连接尝试次数太多：正在放弃。

博主今天早起，打开VMware的时候突然弹出：【VMware】无法连接 MKS: 套接字连接尝试次数太多：正在放弃。我也是第一次遇到这种问题，我尝试了很多种方法，甚至打算卸载重新安装。后来发现这是因为 VMware Authorization Service没有启动，需要手动启动才行。方法如下：进入计算机管理→控制面板→系统和安全→管理工具双击服务再启动VMware Author...

2018-04-08 10:35:35 283

原创 spark配置安装，和jupyter的安装

在配置之前，先准备好： spark-2.2.0-bin-hadoop2.7.tgz Anaconda3-5.1.0-Linux-x86_64.sh解压spark： tar -zxvf spark-2.2.0-bin-hadoop2.7配置spark环境： echo ...

2018-04-07 23:20:05 1557

原创 linux --centOS下构建hadoop集群（伪分布式)

创建用户及准备在构建hadoop之前，创建一个hadoop用户，并通过passwd hadoop给用户设置密码。接着使用su hadoop切换到hadoop用户:并且切换到主目录下创建一个dir 命名为opt。创建好了目录，上传两个压缩包至opt，分别是：---hadoop-2.7.5.tar.gz---jdk-8u152-linux-x64.tar.gztar -zxvf hadoop-2.7...

2018-04-01 10:11:16 165

a2639491403的博客