- 博客(73)
- 资源 (1)
- 收藏
- 关注
原创 3 ,CM 使用
1 ,构建集群 1 :2 ,配置 parcel3 ,重启 :关闭 CM Server : node01cd /export/servers/cm-5.14.0/etc/init.d./cloudera-scm-server stop关闭 agent : node01 , node02 , node03cd /export/servers/cm-5.14.0/etc/in...
2019-07-31 22:47:04 338
原创 2 ,clouderaManager 详情,CM 安装,hdfs,yarn ,zk
一 ,环境准备 :1 ,安装软件 :方式一 :下载一个压缩包,就可以了。方式二 : yum 安装,但是需要把源定位在 cdh。方式三 : rpm 包安装。方式四 : 在 web 页面点几下就好。2 ,两个重要的网址 :CDH5.14.0http://archive.cloudera.com/cdh5/parcels/5.14.0/Cloudera Manager5.14.0...
2019-07-31 12:49:20 704
原创 1,clouderaManager 介绍 : 免费版介绍
一 ,架构图 :1 ,Cloudera Manager 是啥?主要是干啥的?官 : 简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。孙 : 安装集群,监控集群2 ,cloudera manager 有四大功能:管...
2019-07-29 19:08:58 2054
原创 4 ,脚本打包 :
1 ,为什么要把脚本打包 :生产环境中,不会总是在命令行操作。每天用定时任务,进行数据的导入导出操作。2 ,建脚本 :mkdir -p /root/sqoopcd /root/sqooptouch job_HDFS2RDBMS.opt3 ,编辑脚本内容 : 将 hdfs 导出到 mysqlvim job_HDFS2RDBMS.optexport--connectjdbc:...
2019-07-29 17:35:18 386
原创 3 ,导出数据 : hdfs 到 mysql
1 ,理论 :支持 : hive ,hdfshive 或者 hdfs 是一个意思。不支持 hive 导出数据。2 ,为什么要导出 :把查询结果封装起来。查询结果一定是个小表,不会像 hbase 那样的大表。web 页面通常使用的数据是来自 mysql 这样的关系型数据库的。3 ,目的 :把 hdfs 中的数据导出到 mysql ,新建一个表 ( staff1 )4 ,m...
2019-07-29 16:53:24 1206
原创 2 ,导入数据 : mysql 到 hdfs ,mysql 到 hive ,mysql 到 hbase
1 ,mysql 建库,建表 :sqlcreate database company;create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));insert into company.staff(name, sex) valu...
2019-07-29 16:21:19 523
原创 1 ,sqoop 简介,原理,安装
一 ,介绍 :1 ,Sqoop 简介Apache Sqoop ( TM ) 是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop 于 2012 年 3 月孵化出来,现在是一个顶级的 Apache 项目。最新的稳定版本是 1.4.6。Sqoop2 的最新版本是 1.99.7。请注意,1.99.7与1.4.6不兼容,且没有特征,不...
2019-07-29 12:13:49 214
原创 6 ,oozie 的定时调度 ( coordinator )
1 ,目标 :周期性调度任务2 ,配置 oozie-site.xml 文件 :oozie 时区cd /export/servers/oozie-4.1.0-cdh5.14.0/confvim oozie-site.xml属性:oozie.processing.timezone属性值:GMT+0800解释:修改时区为东八区区时3 ,修改 js 框架中的关于时间设置的代码vi ~/...
2019-07-29 01:06:10 1411 1
原创 5 ,调度 mr 任务 :
1 ,目标 :使用 Oozie 调度 MapReduce 任务2 ,准备 jar 包找到一个可以运行的 mapreduce 任务的 jar 包 ( 可以用官方的,也可以是自己写的 ) 。3 ,解压模板文件 : ( 注意 :解压模板变了 )解压 :cd /export/servers/oozie-4.1.0-cdh5.14.0mkdir test03cp oozie-example...
2019-07-29 00:38:37 312
原创 4 ,逻辑调度,多个 job
1 ,目标 :先执行第一个任务,在执行第二个任务2 ,流程图 :3 ,建文件夹 :cd /export/servers/oozie-4.1.0-cdh5.14.0mkdir test024 ,解压模板文件 :cd /export/servers/oozie-4.1.0-cdh5.14.0cp oozie-examples.tar.gz test02cd /export/serv...
2019-07-28 22:57:42 305
原创 3 ,官网翻译 :
1 ,概述 ( Overview )oozie 的工作流概述 ( Oozie Workflow Overview)Oozie 是工作流引擎,oozie 是一个 javaWeb 项目为了 oozie 的目的,一个工作流,就是一个动作的集合,动作被安排在有向无环图里,前面的结束,后面的才能进行。2 ,流程图 :目的 :hpdl ( 一种 xml 流程定义语言 )<!-- ...
2019-07-28 00:26:55 121
原创 2 ,oozie 调度 shell 脚本 :
1 ,目标 :使用 oozie 调度 Shell 脚本,测试一下环境是否好用。2 ,解压官方案例模板 :cd /export/servers/oozie-4.1.0-cdh5.14.0mkdir test01cp oozie-examples.tar.gz test01cd /export/servers/oozie-4.1.0-cdh5.14.0/test01tar -xzvf o...
2019-07-28 00:07:11 218
原创 1,mysql 访问 :
1 ,让 mysql 既可以远程访问也可以本地访问 :切换库 : mysql修改表 : select * from user;刷新权限 :FLUSH PRIVILEGES;
2019-07-27 17:27:53 142
原创 1 ,oozie 简介,模块介绍,部署,启动,关闭
一 ,oozie 简介 :1 ,oozie 官网 :http://archive.cloudera.com/cdh5/cdh/5/oozie-4.1.0-cdh5.14.0/2 , oozie 下载 :http://archive.cloudera.com/cdh5/cdh/5/3 ,oozie 作用 :官方 : 工作流调度系统。孙 : 多个 job 要执行,谁先谁后,什么时候执行...
2019-07-27 17:19:34 732
转载 13 ,hbase 高级知识 :
1 ,HBase 在商业项目中的能力 :每天:消息量:发送和接收的消息数超过60亿将近1000亿条数据的读写高峰期每秒150万左右操作整体读取数据占有约55%,写入占有45%超过2PB的数据,涉及冗余共6PB数据数据每月大概增长300千兆字节。...
2019-07-26 16:01:26 69
原创 12,谷粒微博项目 :
一 ,需求 :1 ,需求 :微博内容的浏览,数据库表设计用户社交体现:关注用户,取关用户拉取关注的人的微博内容2 ,建表 : 2 表 1 视图用户信息表 : 用户 id + 时间戳,用户信息 ,用户发文 。用户关系表 : 我关注过的人,关注过我的人。最近消息视图 : 我关注过的人,发表过的所有文章。 ( 我登录后,就看我的好友中,最近发过的消息,时间最近的 5 个消息,不管是...
2019-07-26 15:45:59 350
原创 11,优化 ( 内存优化,基础优化 )
1 ,内存 :官方 :HBase 操作过程中需要大量的内存开销,毕竟 Table 是可以缓存在内存中的,一般会分配整个可用内存的70%给HBase的Java堆。但是不建议分配非常大的堆内存,因为GC过程持续太久会导致RegionServer处于长期不可用状态,一般16~48G内存就可以了,如果因为框架占用内存过高导致系统内存不足,框架一样会被系统服务拖死。孙 : 给 java 20G 左右...
2019-07-26 15:05:37 240
原创 10,预分区,rowkey 设计
一 ,预分区1 ,默认分区规则 :官方 :HBase 默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断 增加,此region已经不能承受不断增长的数据量,会进行split,分成2个region。孙 : 默认按住数据的大小分区,不按照数据的条数分区。2 ...
2019-07-26 14:37:11 617
原创 9 ,hbase 高可用
一 ,高可用 :1 ,在 conf 目录下创建 backup-masters 文件 :touch backup-masters2 ,输入文件内容 :echo node02 > backup-masters3 ,将文件分发给其他节点scp backup-masters root@node02:PWDscpbackup−mastersroot@node03:PWDscp backu...
2019-07-26 13:17:53 147
原创 8 ,hive 集成 hbase ( hbase 表已经存在,我们用 hive 创建表去关联它 )
一 ,集成1 ,作用 : 分析hbase 只能做存储,不能做分析。hbase 要想分析数据,必须集成第三方框架。分析框架 : mr ,hive ,spark要想分析 hbase 中的数据,必须用到第三方框架 。2 ,集成 : 将 hbase 的 jar 包给 hive ( 用软链接的形式 )ln -s $HBASE_HOME/lib/hbase-common-1.2.0-cdh5...
2019-07-24 23:49:50 453
原创 7 ,hbaseAPI 操作 : 连接 mapreduce
一 ,连接 mapreduce :1 ,介绍 :简介 : hbase 可以和 mr 勾搭上。详细 : 通过 HBase 的相关 JavaAPI,我们可以实现伴随 HBase 操作的 MapReduce 过程,比如使用MapReduce 将数据从本地文件系统导入到 HBase 的表中,比如我们从 HBase 中读取一些原始数据后使用 MapReduce 做数据分析。2 ,...
2019-07-24 10:47:20 411
原创 6 ,hbaseAPI 操作 : 增删改查
1 ,查看所有表 :// 查看所有表@Testpublic void listAll() throws IOException { // 配置信息 Configuration conf = HBaseConfiguration.create(); // zk 的 ip , 端口 conf.set("hbase.zookeeper.quorum", "no...
2019-07-24 10:43:41 187
原创 5 ,hbase 数据结构,HBase 读写原理
一 ,hbase 数据结构1 ,RowKey : 主键与 nosql 数据库们一样,RowKey 是用来检索记录的主键。访问 HBASE table 中的行,只有三种方式:1 ,通过单个RowKey访问2 ,通过RowKey的range(正则)3 ,全表扫描RowKey 行键 (RowKey)可以是任意字符串(最大长度是64KB,实际应用中长度一般为 10-100bytes),在HB...
2019-07-23 23:55:34 169
原创 4 ,hbase 的 shell 操作 :
1 ,进入 shell :cd /export/servers/hbase-1.2.0-cdh5.14.0bin/hbase shell2 ,查看帮助 :help3 ,退出 :exit;4 ,库 :hbase 不分库5 ,表 : 查看所有表list6 ,名称空间 :默认 default 。如果不指定,就用 default 这个名称空间。7 ,名称空间 : 查看所有名...
2019-07-23 21:09:45 170
原创 3,hbase-site.xml 配置文件说明
1 ,hbase.rootdir这个目录是 region server 的共享目录,用来持久化 HBase。URL 需要是’完全正确’的,还要包含文件系统的 scheme。例如,要表示 hdfs 中的 ‘/hbase’ 目录,namenode 运行在namenode.example.org 的 9090 端口。则需要设置 为hdfs://namenode.example.org:9000/hba...
2019-07-23 15:35:53 1851
原创 2 ,habse 安装与启动 : 完全分布式
一 ,安装 :1 ,下载 :网站 :http://archive.cloudera.com/cdh5/cdh/5/得到 :hbase-1.2.0-cdh5.14.0.tar.gz2 ,文档 :http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0/3 ,上传 :到这个目录/export/softwares4 ,解...
2019-07-23 15:22:53 438
原创 1 ,hbase 简介,准实时,适用场景 ( region ,store ,storeFile 关系 )
一 ,概况 :1 ,百度百科 :是什么 : HBase是一个分布式的、面向列的开源数据库bigtable :该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。依托 hdfs 就像 Bigtable 利用了 Google 文件系统(File System)所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于...
2019-07-20 21:25:11 1621
原创 9 ,kafka 三大配置文件 :
1 ,Broker 配置信息属性默认值描述broker.id必填参数,broker的唯一标识log.dirs/tmp/kafka-logsKafka数据存放的目录。可以指定多个目录,中间用逗号分隔,当新partition被创建的时会被存放到当前存放partition最少的目录。port9092BrokerServer 接受客户端连接的端口号zo...
2019-07-20 16:22:48 207
原创 8 ,kafka 与 flume 比较,flume 与 kafka 整合 ,cloudera 介绍
一 ,理论 :1 ,cloudera : 收费标准使用 : 不收钱。出问题 : 来解决的时候,收取服务费。公司中 : cdh 的使用,用的很多。2 ,flume 与 kafka 比较 :开发的公司 :1 ,flume : cloudera2 ,kafka : linkedinflume :使用场景1 ,多个生产者,少量消费者2 ,对数据安全性要求不高3 ,适合于 ha...
2019-07-20 16:07:58 255
原创 7,kafka stream :kafka 并行度 ,kafka 流式处理
一 ,并行度 :同时进行的程序,处理同一组数据1 ,实时性 : kafka , storm ,spark ,flink微批次处理 : 好多条数据一起处理。代表 : spark非微批次处理 : 每条数据处理一次,实时性更好。代表 : storm , kafkaflink :对于 spark 做了一些改进,形成了这么个东西。2 ,怎样增加 kafka 并行度 : 基础知识每个消...
2019-07-20 14:48:44 2198
原创 6 ,kafka 拦截器,拦截器链,案例
一 ,理论 :1 ,哪个版本开始 :kafka1.02 ,拦截的位置 :生产者3 ,拦截器数量 :可以有很多拦截器,形成一个拦截器链4 ,方法介绍 :configure : 初始化 ( 调用一次 )获取配置信息和初始化数据时调用。onSend :前处理,可以对消息进行恩和操作 ( 每条消息,都走一次这个方法 )该方法封装进KafkaProducer.send方法中,即它运行...
2019-07-20 13:11:10 256
原创 5 ,kafka 的 API 操作,生产者,消费者,新版,旧版
0 ,使用场景 :低级 API :常用低级 API :调错一 ,生产者 :1 ,打开消费者 : 等着 ( 监听 first 主题 )node01 上 :cd /export/servers/kafka_2.11-0.11.0.0bin/kafka-console-consumer.sh --zookeeper node01:2181 --topic first2 ,java ...
2019-07-20 11:58:15 374
原创 4 ,kafka 消费者组,案例 ( 群发,单发 )
一 ,单发 : 同一时刻,只有一个消费者消费1 ,思路 :生产者 : broker1消费者 : broker2 , broker3消费者组 : hei ( 包含 broker2 , broker3 )期待的结果 : 同一时刻,只有一个消费者在消费数据,其实是达到了 ( 容错 ) 的效果。可以做什么用 : 容错,备份的作用2 ,broker1 :生产者,直接打开 :在 no...
2019-07-18 22:11:47 833
原创 3 ,Kafka 工作流程分析,生产,保存,消费
一 ,producer 生产消息 :1 ,写入方式 : 生产者写数据的过程 producerproducer :生产者push :推patition :分区broker : kafka 的分机写过程 :producer 采用 push 模式将消息发布到 broker,每条消息都被 append 到 patition 中,属于顺序写磁盘 ( 顺序写磁盘效率比随机写性能要高,保障 k...
2019-07-18 21:44:07 471
原创 2 ,Kafka 集群部署,启动,关闭,命令行操作
一 ,安装 :1 ,规划 :node01node02node03zkzkzkkafkakafkakafka2 ,安装包下载 :要这个 : Scala 2.11 - kafka_2.11-0.11.0.0.tgz (asc, md5)http://kafka.apache.org/downloads.html3 ,得到 :kafka_2.11...
2019-07-18 20:10:03 6042
原创 1,kafka 介绍,消息队列,大气球,架构模型
1 ,Kafka 简介 :Apache 软件基金会开发由 Scala 和 Java 编写应用 : Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。实时消息 : Kafka 的目的是通过 Hadoop 的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。高吞吐量 :即使是非常普通的硬件 Kafka 也可以支持每秒数百万...
2019-07-18 11:28:35 254
原创 9,flume 面试题,个人总结 :
1 ,如何实现 flume 传输数据的实时监控使用第三方框架 ganglia2 ,flume 的 source,sink,channel 的作用,你们的 source 类型是 ?source :搜集数据channel :数据缓存sink :把数据发送到目的地常用 source 类型 :1 ,监控文件 :exec2 ,监控目录 :spooldir3 ,flume 选择器 :...
2019-07-18 00:33:33 1620
原创 8 ,ganglia :flume 数据监控
一 ,在 node01 上安装 ganglia :1 ,flume 监控 :目的 : 看看数据有没有丢失,如果丢,会丢多少。2 ,安装 httpd :mount /dev/sr0 /mnt/cdrom/yum -y install httpd3 ,安装 php :yum -y install php4 ,安装依赖 :yum -y install rrdtoolyum -y in...
2019-07-17 23:17:11 483
原创 7 ,多源单出口
一 ,思路 :1 ,需求 :采集多个源,到同一个 flume 的控制台。2 ,架构图 :3 ,案例 :flume1 : 在 node01 上,监控 hive 的日志文件。flume2 : 在 node02 上,监控网络端口。flume3 : 在 node03 上,接收 1, 2 的数据,打印在控制台上。二 ,动手 :1 ,把 flume 发到 node02,和 node03...
2019-07-17 21:01:52 88
原创 6 ,单源多出口,avro ,负载均衡,高可用
一 ,多输出1 ,要求 :数据来源 : 文件监控数据去向 : hdfs + 本地分配机制 : 复制 ( 两个目的地的数据完全一致 )2 ,架构图 :3 ,思路 :flume1 :接收文件变化flume2 :建数据下沉到 hdfsflume3 :将数据下沉到 本地4 ,配置文件 :vim flume1.conf目的 : 配置 1 个接收日志文件的 source 和...
2019-07-17 19:43:17 197
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人