hadoop
kkongyu
这个作者很懒,什么都没留下…
展开
-
搭建分布式集群(一)
基础操作1. 客户机的文本模式与图形模式切换 1. ctrl + alt + F6 文本模式 2. ctrl + alt + F7 图形模式2. 设置开机默认进入文本模式 1. 进入 /etc/default/grub 2. 将GRB_CMPLINE_LINUX_DEFAULT="quiet" 修改为:GRB_C...原创 2017-12-19 20:51:46 · 260 阅读 · 0 评论 -
kafka笔记(二) kafka与flume级联
kafka级联flumeKafkaSink(消费者):a1.sources = r1a1.channels = c1a1.sinks = k1a1.sources.r1.type = netcata1.sources.r1.bind = localhosta1.sources.r1.port = 44444a1.sinks.k1.type = org.apache.flume.si...原创 2018-12-11 00:18:25 · 610 阅读 · 0 评论 -
kafka笔记(一) kafka使用
Hbase适用于数据随机查找hdfs数据批处理,做数据的统计、离线计算kafka:分布式流处理平台在系统之间构建实时数据流管道基本名词介绍:配置kafka:broker.id=1listeners=PLAINTEXT://:9092log.dirs=/home/ubuntu/kafka-logszookeeper.connect=s100:2181启动kafka服务器:...原创 2018-12-09 23:04:49 · 211 阅读 · 1 评论 -
flume笔记(四) Channal
flume原理memory channel(内存通道):配置memory.conf:a1.sources = r1a1.channels = c1a1.sinks = k1a1.channels.c1.type = memorya1.channels.c1.capacity = 10000a1.channels.c1.transactionCapacity = 10000...原创 2018-12-09 00:25:12 · 330 阅读 · 0 评论 -
flume笔记(三) 多级agent连接模型
两层agent连接avroSource和avroSink实现跃点agent代理:配置avro_hop.conf#a1: a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = netcat al.sources.r1.bind = localhost a1.sources.r1.port = 4...原创 2018-12-09 00:14:00 · 371 阅读 · 0 评论 -
flume笔记(二) flume数据存储
flume原理flume工作原理:flume的数据流由事件(event)贯穿始终。事件是flume的基本单位,它携带日数据并且携带带有头信息,这些event由agent外部的source生成,当source捕获事件后会进行特定的格式化,然后source会把事件推入channel中,保存事件直到sink事件处理完该事件为止,sink负责持久化或者把事件推向另一个source或者写入hdfs...原创 2018-12-08 21:58:18 · 712 阅读 · 0 评论 -
Flume笔记(一) flume工作原理以及数据源获取
flume 特点: 分布式、可靠、高可用的海量日志采集、聚合和传输的系统 在生产者和消费者中间起协调作用flume工作原理: flume的数据流由事件(event)贯穿始终。事件是flume的基本单位,它携带日数据并且携带带有头信息, 这些event由agent外部的source生成,当source捕获事件后会进行特定的格式化,然后source会把事件推入channel中, 保存事...原创 2018-12-08 21:50:33 · 1495 阅读 · 0 评论 -
docker 安装zookeeper集群
docker搭建zookeeper集群启动zk节点sudo docker exec -it zoo1_Container_ID /bin/bashsudo docker exec -it zoo2_Container_ID /bin/bashsudo docker exec -it zoo3_Container_ID /bin/bash由于我们分别将 zoo1, zoo2,...原创 2018-11-21 10:52:25 · 482 阅读 · 0 评论 -
Zookeeper集群报错:myid文件缺失导致zookeeper无法启动(myid file is missing)
zookeeper集群搭建zookeeper产生背景以及zookeeper作用介绍搭建集群存在的问题zoo.cfg:dataDir=/home/ubuntu/data/zkdata/zookeeper设置服务器编号:在~/data/zkdata/myid:echo "1" > myid报错信息:Error contacting service.It is proba...原创 2018-11-20 22:56:32 · 3318 阅读 · 0 评论 -
hadoop源码学习
hadoop 三种搭建方式:本地(单jiqi)模式:文件路径:name: fs.defaultFSvalue: file:///伪分布式模式文件路径:完全分布式模式文件路径:阅读源码:Configuration conf = new Configuration();创建Configuration对象时,jingjnknjjn2...原创 2018-11-13 19:07:26 · 200 阅读 · 0 评论 -
大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例
1 大数据处理的常用方法大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: 在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。 如果对于数据的分析结果在时间上有比较严格的要求,则可以采用在线处理的方式来对数据进行分析,如使用Spark、Storm等进行处理。比较贴切的...转载 2018-04-23 12:32:10 · 24341 阅读 · 3 评论 -
win与ubuntu上进行远程调试
启动远程调试,查看job在hadoop集群上的执行过程[远端s100]:1. 将win生成的jar传送到ubutu2. 设置HADOOP_CLIENT_OPTS环境变量,在shell下输入 $> export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -agentlib:jdwp=transport=dt_socket,server...原创 2018-03-11 12:21:17 · 451 阅读 · 0 评论 -
Hadoop ( 四 ) 文件操作|IO操作|sequenceFile
hadoop 文件系统的操作: 1> hadoop fs hdfs dfs 命令 2> 创建文件夹:[-mkdir [-p] ...] 3> 删除文件夹:[-rmdir [--ignore-fail-on-non-empty] ...] 4> 打开文件系统中的文件: [-cat [-ignoreCrc] ...] 5> 复制文件系统中的文件: [原创 2018-02-06 20:37:59 · 443 阅读 · 0 评论 -
hadoop (二) 搭建分布式集群
big data 4V模型:(海量数据,并行访问,数据挖掘)Volumn 海量数据VariatyVelocity 并行高速Valueless hadoop配置伪分布式:[core-site.xml]: <property> <name>fs.defaultFS</name>原创 2018-01-12 11:24:41 · 581 阅读 · 0 评论 -
hadoop (三) 安装Eclipse插件、机架感知、文件整理
安装EclipseX 插件在eclipse中安装hadoop插件,方便查看dfs文件系统:1. 下载hadoop2x-eclipse-plugin.zip文件2. 解压hadoop2x-eclipse-plugin.zip/release/*.jar到${eclipse的安装路径}/plugins下3. 重启eclipse4. 验证hadoop插件是否安装成功: prefere原创 2018-02-02 19:24:26 · 199 阅读 · 0 评论 -
kafka笔记(三) kafka API
生产者API测试public void testProduce(){ Properties properties = new Properties(); // broker 列表 properties.put("metadata.broker.list","s100:9092"); // 串行化 properties...原创 2018-12-12 10:03:22 · 145 阅读 · 0 评论