![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
一只土肥圆的猿
我是谁?我在哪?
-- 起来写代码!!!
展开
-
Flume采集数据到HDFS中,开头信息有乱码
Flume采集数据,在生成的HDFS文件中,总是有“SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable??H謺NSA???y”信息,在Flume文档中介绍,hdfs.fileType默认为SequenceFile,将其改为DataStream就可以按照采集的文件原样输入到hdfs,加一行a1.sinks....原创 2018-03-15 10:45:25 · 1413 阅读 · 0 评论 -
手动开启/关闭HDFS的safemode(安全模式)
在hadoop启动namenode的时候,会启动安全模式(safemode),在该模式下,namenode会等待datanode向它发送块报告(block report),只有接收到的datanode上的块数量(datanodes blocks)和实际的数量(total blocks)接近一致, 超过 datanodes blocks / total blocks >= 99.9% ...原创 2018-08-18 12:14:56 · 4097 阅读 · 0 评论 -
Sqoop Mysql导入到HDFS
导入test数据库sqoop表到指定目录参数:--target-dir /directory1例:sqoop import --connect jdbc:mysql://node1:3306/test --username root --table sqoop --m 1 --target-dir /sqoop/1导入表子集参数:--where <condition>1例如:sqoop...原创 2018-07-13 11:06:24 · 765 阅读 · 0 评论 -
RPC服务和HTTP服务对比
很长时间以来都没有怎么好好搞清楚RPC(即Remote Procedure Call,远程过程调用)和HTTP调用的区别,不都是写一个服务然后在客户端调用么?这里请允许我迷之一笑~Naive!本文简单地介绍一下两种形式的C/S架构,先说一下他们最本质的区别,就是RPC主要是基于TCP/IP协议的,而HTTP服务主要是基于HTTP协议的,我们都知道HTTP协议是在传输层协议TCP之上的,所以效率来看...转载 2018-05-11 09:42:23 · 767 阅读 · 0 评论 -
Flume中的HDFS Sink配置参数说明
Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。typehdfspath写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix默认值:FlumeData写入hdfs的文件名前缀,可以使用flume提供的日期及%{host...原创 2018-04-26 16:33:55 · 333 阅读 · 0 评论 -
Flume数据采集常用案例
flume的案例 1)案例1:Avro Avro可以发送一个给定的文件给Flume,Avro 源使用AVRO RPC机制。 a)创建agent配置文件?1234567891011121314151617181920212223root@m1:/home/hadoop#vi /home/hadoop/flume-1.5.0-bin/conf/avro.conf a1.sour...原创 2018-04-26 15:59:53 · 1785 阅读 · 0 评论 -
CentOS6、7 局域网离线安装Ambari
(自己安装多遍,踩过各种坑,终于趟顺了,下面绝对完整版)(安装6、7的步骤一样,只是相关执行命令6、7会有差别)1.1 Ambari Ambari的作用来说,就是创建、管理、监视 Hadoop的集群。Ambari自身也是一个分布式架构的软件,主要由两部分组成:Ambari Server和 Ambari Agent。简单来说,用户通过Ambari Server通知 Ambari Agen...原创 2018-04-18 15:50:28 · 2252 阅读 · 0 评论 -
集群SSH免密登录
这里以三台服务器为例:master、slave1、slave2给3个机器生成秘钥文件以master为例,执行命令,生成空字符串的秘钥(后面要使用公钥),命令是:1. [root@master .ssh]# ssh-keygen -t rsa -P '' 2. ls /root/.ssh/使用同样的方法为slave1和slave2生成秘钥(命令完全相同,不用做如何修改):1. [r...原创 2018-05-10 14:00:04 · 3779 阅读 · 0 评论 -
云计算,大数据,人工智能三者有何关系?
原创:http://cloud.idcquan.com/yjs/115806.shtml云计算最初的目标是对资源的管理,管理的主要是计算资源,网络资源,存储资源三个方面。想象你有一大堆的服务器,交换机,存储设备,放在你的机房里面,你最想做的事情就是把这些东西统一的管理起来,最好能达到当别人向你请求分配资源的时候(例如1核1G内存,10G硬盘,1M带宽的机器),能够达到想什么时候要就能什么时候要,想...转载 2018-05-10 15:22:09 · 447 阅读 · 0 评论 -
Ambari安装----Confirm Hosts Registering with the server failed解决办法
安装Ambari到Confirm Hosts这步过不去了!点击红色“Failed”,查看详细错误:[html] view plain copy========================== Creating target directory... ========================== Command start time 2016-11-09 16:24:42 ...原创 2018-04-18 17:04:06 · 8595 阅读 · 1 评论 -
Flume基础学习笔记
一、什么是flumeFlume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。二、flume特点flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Ag...原创 2018-03-14 17:20:06 · 329 阅读 · 0 评论 -
Flume配置参数说明
channelType:hdfspath:写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix: 默认值:FlumeData 写入hdfs的文件名前缀,可以使用flume提供的日期及%{host}表达式。fileSuffix:写入hdfs的文件名后缀,比如:.lzo .l...原创 2018-03-14 17:18:49 · 2604 阅读 · 0 评论 -
大数据架构:Kafka
Kafka 是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可在廉价PC Server上搭建起大规模消息系统。Kafka具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费KAFKA: 分布式的发布-订阅消息系统,主要用于处理活跃的数据 特点:高吞吐量: 每秒百万级别的生产消费----生产消费 持久性: 由完善的消息存储机制,确保数据...原创 2018-03-06 14:53:01 · 4101 阅读 · 0 评论 -
Kafka监控工具KafkaOffsetMonitor配置及使用
KafkaOffsetMonitor是一个可以用于监控Kafka的Topic及Consumer消费状况的工具,其配置和使用特别的方便。源项目Github地址为:https://github.com/quantifind/KafkaOffsetMonitor。 一、KafkaOffsetMonitor的使用 因为完全没有安装配置的过程,所以直接从KafkaOffsetMonitor...原创 2018-03-16 14:16:03 · 1939 阅读 · 0 评论 -
Java thrift服务器和客户端创建实例
首先环境介绍一下:thrift-0.10.0下载地址:http://archive.apache.org/dist/thrift/<1>创建HelloWorld.thriftnamespace java com.thrift.demoservice HelloWorldService{string sayHello(1:string username)} ...原创 2018-08-23 17:33:28 · 318 阅读 · 0 评论