自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

孙砚秋的博客

好东西,就分享给朋友吧

  • 博客(73)
  • 资源 (1)
  • 收藏
  • 关注

原创 3 ,CM 使用

1 ,构建集群 1 :2 ,配置 parcel3 ,重启 :关闭 CM Server : node01cd /export/servers/cm-5.14.0/etc/init.d./cloudera-scm-server stop关闭 agent : node01 , node02 , node03cd /export/servers/cm-5.14.0/etc/in...

2019-07-31 22:47:04 338

原创 2 ,clouderaManager 详情,CM 安装,hdfs,yarn ,zk

一 ,环境准备 :1 ,安装软件 :方式一 :下载一个压缩包,就可以了。方式二 : yum 安装,但是需要把源定位在 cdh。方式三 : rpm 包安装。方式四 : 在 web 页面点几下就好。2 ,两个重要的网址 :CDH5.14.0http://archive.cloudera.com/cdh5/parcels/5.14.0/Cloudera Manager5.14.0...

2019-07-31 12:49:20 704

原创 1,clouderaManager 介绍 : 免费版介绍

一 ,架构图 :1 ,Cloudera Manager 是啥?主要是干啥的?官 : 简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。孙 : 安装集群,监控集群2 ,cloudera manager 有四大功能:管...

2019-07-29 19:08:58 2054

原创 4 ,脚本打包 :

1 ,为什么要把脚本打包 :生产环境中,不会总是在命令行操作。每天用定时任务,进行数据的导入导出操作。2 ,建脚本 :mkdir -p /root/sqoopcd /root/sqooptouch job_HDFS2RDBMS.opt3 ,编辑脚本内容 : 将 hdfs 导出到 mysqlvim job_HDFS2RDBMS.optexport--connectjdbc:...

2019-07-29 17:35:18 386

原创 3 ,导出数据 : hdfs 到 mysql

1 ,理论 :支持 : hive ,hdfshive 或者 hdfs 是一个意思。不支持 hive 导出数据。2 ,为什么要导出 :把查询结果封装起来。查询结果一定是个小表,不会像 hbase 那样的大表。web 页面通常使用的数据是来自 mysql 这样的关系型数据库的。3 ,目的 :把 hdfs 中的数据导出到 mysql ,新建一个表 ( staff1 )4 ,m...

2019-07-29 16:53:24 1206

原创 2 ,导入数据 : mysql 到 hdfs ,mysql 到 hive ,mysql 到 hbase

1 ,mysql 建库,建表 :sqlcreate database company;create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));insert into company.staff(name, sex) valu...

2019-07-29 16:21:19 523

原创 1 ,sqoop 简介,原理,安装

一 ,介绍 :1 ,Sqoop 简介Apache Sqoop ( TM ) 是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop 于 2012 年 3 月孵化出来,现在是一个顶级的 Apache 项目。最新的稳定版本是 1.4.6。Sqoop2 的最新版本是 1.99.7。请注意,1.99.7与1.4.6不兼容,且没有特征,不...

2019-07-29 12:13:49 214

原创 6 ,oozie 的定时调度 ( coordinator )

1 ,目标 :周期性调度任务2 ,配置 oozie-site.xml 文件 :oozie 时区cd /export/servers/oozie-4.1.0-cdh5.14.0/confvim oozie-site.xml属性:oozie.processing.timezone属性值:GMT+0800解释:修改时区为东八区区时3 ,修改 js 框架中的关于时间设置的代码vi ~/...

2019-07-29 01:06:10 1411 1

原创 5 ,调度 mr 任务 :

1 ,目标 :使用 Oozie 调度 MapReduce 任务2 ,准备 jar 包找到一个可以运行的 mapreduce 任务的 jar 包 ( 可以用官方的,也可以是自己写的 ) 。3 ,解压模板文件 : ( 注意 :解压模板变了 )解压 :cd /export/servers/oozie-4.1.0-cdh5.14.0mkdir test03cp oozie-example...

2019-07-29 00:38:37 312

原创 4 ,逻辑调度,多个 job

1 ,目标 :先执行第一个任务,在执行第二个任务2 ,流程图 :3 ,建文件夹 :cd /export/servers/oozie-4.1.0-cdh5.14.0mkdir test024 ,解压模板文件 :cd /export/servers/oozie-4.1.0-cdh5.14.0cp oozie-examples.tar.gz test02cd /export/serv...

2019-07-28 22:57:42 305

原创 3 ,官网翻译 :

1 ,概述 ( Overview )oozie 的工作流概述 ( Oozie Workflow Overview)Oozie 是工作流引擎,oozie 是一个 javaWeb 项目为了 oozie 的目的,一个工作流,就是一个动作的集合,动作被安排在有向无环图里,前面的结束,后面的才能进行。2 ,流程图 :目的 :hpdl ( 一种 xml 流程定义语言 )<!-- ...

2019-07-28 00:26:55 121

原创 2 ,oozie 调度 shell 脚本 :

1 ,目标 :使用 oozie 调度 Shell 脚本,测试一下环境是否好用。2 ,解压官方案例模板 :cd /export/servers/oozie-4.1.0-cdh5.14.0mkdir test01cp oozie-examples.tar.gz test01cd /export/servers/oozie-4.1.0-cdh5.14.0/test01tar -xzvf o...

2019-07-28 00:07:11 218

原创 1,mysql 访问 :

1 ,让 mysql 既可以远程访问也可以本地访问 :切换库 : mysql修改表 : select * from user;刷新权限 :FLUSH PRIVILEGES;

2019-07-27 17:27:53 142

原创 1 ,oozie 简介,模块介绍,部署,启动,关闭

一 ,oozie 简介 :1 ,oozie 官网 :http://archive.cloudera.com/cdh5/cdh/5/oozie-4.1.0-cdh5.14.0/2 , oozie 下载 :http://archive.cloudera.com/cdh5/cdh/5/3 ,oozie 作用 :官方 : 工作流调度系统。孙 : 多个 job 要执行,谁先谁后,什么时候执行...

2019-07-27 17:19:34 732

转载 13 ,hbase 高级知识 :

1 ,HBase 在商业项目中的能力 :每天:消息量:发送和接收的消息数超过60亿将近1000亿条数据的读写高峰期每秒150万左右操作整体读取数据占有约55%,写入占有45%超过2PB的数据,涉及冗余共6PB数据数据每月大概增长300千兆字节。...

2019-07-26 16:01:26 69

原创 12,谷粒微博项目 :

一 ,需求 :1 ,需求 :微博内容的浏览,数据库表设计用户社交体现:关注用户,取关用户拉取关注的人的微博内容2 ,建表 : 2 表 1 视图用户信息表 : 用户 id + 时间戳,用户信息 ,用户发文 。用户关系表 : 我关注过的人,关注过我的人。最近消息视图 : 我关注过的人,发表过的所有文章。 ( 我登录后,就看我的好友中,最近发过的消息,时间最近的 5 个消息,不管是...

2019-07-26 15:45:59 350

原创 11,优化 ( 内存优化,基础优化 )

1 ,内存 :官方 :HBase 操作过程中需要大量的内存开销,毕竟 Table 是可以缓存在内存中的,一般会分配整个可用内存的70%给HBase的Java堆。但是不建议分配非常大的堆内存,因为GC过程持续太久会导致RegionServer处于长期不可用状态,一般16~48G内存就可以了,如果因为框架占用内存过高导致系统内存不足,框架一样会被系统服务拖死。孙 : 给 java 20G 左右...

2019-07-26 15:05:37 240

原创 10,预分区,rowkey 设计

一 ,预分区1 ,默认分区规则 :官方 :HBase 默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断 增加,此region已经不能承受不断增长的数据量,会进行split,分成2个region。孙 : 默认按住数据的大小分区,不按照数据的条数分区。2 ...

2019-07-26 14:37:11 617

原创 9 ,hbase 高可用

一 ,高可用 :1 ,在 conf 目录下创建 backup-masters 文件 :touch backup-masters2 ,输入文件内容 :echo node02 > backup-masters3 ,将文件分发给其他节点scp backup-masters root@node02:PWDscpbackup−mastersroot@node03:PWDscp backu...

2019-07-26 13:17:53 147

原创 8 ,hive 集成 hbase ( hbase 表已经存在,我们用 hive 创建表去关联它 )

一 ,集成1 ,作用 : 分析hbase 只能做存储,不能做分析。hbase 要想分析数据,必须集成第三方框架。分析框架 : mr ,hive ,spark要想分析 hbase 中的数据,必须用到第三方框架 。2 ,集成 : 将 hbase 的 jar 包给 hive ( 用软链接的形式 )ln -s $HBASE_HOME/lib/hbase-common-1.2.0-cdh5...

2019-07-24 23:49:50 453

原创 7 ,hbaseAPI 操作 : 连接 mapreduce

一 ,连接 mapreduce :1 ,介绍 :简介 : hbase 可以和 mr 勾搭上。详细 : 通过 HBase 的相关 JavaAPI,我们可以实现伴随 HBase 操作的 MapReduce 过程,比如使用MapReduce 将数据从本地文件系统导入到 HBase 的表中,比如我们从 HBase 中读取一些原始数据后使用 MapReduce 做数据分析。2 ,...

2019-07-24 10:47:20 411

原创 6 ,hbaseAPI 操作 : 增删改查

1 ,查看所有表 :// 查看所有表@Testpublic void listAll() throws IOException { // 配置信息 Configuration conf = HBaseConfiguration.create(); // zk 的 ip , 端口 conf.set("hbase.zookeeper.quorum", "no...

2019-07-24 10:43:41 187

原创 5 ,hbase 数据结构,HBase 读写原理

一 ,hbase 数据结构1 ,RowKey : 主键与 nosql 数据库们一样,RowKey 是用来检索记录的主键。访问 HBASE table 中的行,只有三种方式:1 ,通过单个RowKey访问2 ,通过RowKey的range(正则)3 ,全表扫描RowKey 行键 (RowKey)可以是任意字符串(最大长度是64KB,实际应用中长度一般为 10-100bytes),在HB...

2019-07-23 23:55:34 169

原创 4 ,hbase 的 shell 操作 :

1 ,进入 shell :cd /export/servers/hbase-1.2.0-cdh5.14.0bin/hbase shell2 ,查看帮助 :help3 ,退出 :exit;4 ,库 :hbase 不分库5 ,表 : 查看所有表list6 ,名称空间 :默认 default 。如果不指定,就用 default 这个名称空间。7 ,名称空间 : 查看所有名...

2019-07-23 21:09:45 170

原创 3,hbase-site.xml 配置文件说明

1 ,hbase.rootdir这个目录是 region server 的共享目录,用来持久化 HBase。URL 需要是’完全正确’的,还要包含文件系统的 scheme。例如,要表示 hdfs 中的 ‘/hbase’ 目录,namenode 运行在namenode.example.org 的 9090 端口。则需要设置 为hdfs://namenode.example.org:9000/hba...

2019-07-23 15:35:53 1851

原创 2 ,habse 安装与启动 : 完全分布式

一 ,安装 :1 ,下载 :网站 :http://archive.cloudera.com/cdh5/cdh/5/得到 :hbase-1.2.0-cdh5.14.0.tar.gz2 ,文档 :http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0/3 ,上传 :到这个目录/export/softwares4 ,解...

2019-07-23 15:22:53 438

原创 1 ,hbase 简介,准实时,适用场景 ( region ,store ,storeFile 关系 )

一 ,概况 :1 ,百度百科 :是什么 : HBase是一个分布式的、面向列的开源数据库bigtable :该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。依托 hdfs 就像 Bigtable 利用了 Google 文件系统(File System)所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于...

2019-07-20 21:25:11 1621

原创 9 ,kafka 三大配置文件 :

1 ,Broker 配置信息属性默认值描述broker.id必填参数,broker的唯一标识log.dirs/tmp/kafka-logsKafka数据存放的目录。可以指定多个目录,中间用逗号分隔,当新partition被创建的时会被存放到当前存放partition最少的目录。port9092BrokerServer 接受客户端连接的端口号zo...

2019-07-20 16:22:48 207

原创 8 ,kafka 与 flume 比较,flume 与 kafka 整合 ,cloudera 介绍

一 ,理论 :1 ,cloudera : 收费标准使用 : 不收钱。出问题 : 来解决的时候,收取服务费。公司中 : cdh 的使用,用的很多。2 ,flume 与 kafka 比较 :开发的公司 :1 ,flume : cloudera2 ,kafka : linkedinflume :使用场景1 ,多个生产者,少量消费者2 ,对数据安全性要求不高3 ,适合于 ha...

2019-07-20 16:07:58 255

原创 7,kafka stream :kafka 并行度 ,kafka 流式处理

一 ,并行度 :同时进行的程序,处理同一组数据1 ,实时性 : kafka , storm ,spark ,flink微批次处理 : 好多条数据一起处理。代表 : spark非微批次处理 : 每条数据处理一次,实时性更好。代表 : storm , kafkaflink :对于 spark 做了一些改进,形成了这么个东西。2 ,怎样增加 kafka 并行度 : 基础知识每个消...

2019-07-20 14:48:44 2198

原创 6 ,kafka 拦截器,拦截器链,案例

一 ,理论 :1 ,哪个版本开始 :kafka1.02 ,拦截的位置 :生产者3 ,拦截器数量 :可以有很多拦截器,形成一个拦截器链4 ,方法介绍 :configure : 初始化 ( 调用一次 )获取配置信息和初始化数据时调用。onSend :前处理,可以对消息进行恩和操作 ( 每条消息,都走一次这个方法 )该方法封装进KafkaProducer.send方法中,即它运行...

2019-07-20 13:11:10 256

原创 5 ,kafka 的 API 操作,生产者,消费者,新版,旧版

0 ,使用场景 :低级 API :常用低级 API :调错一 ,生产者 :1 ,打开消费者 : 等着 ( 监听 first 主题 )node01 上 :cd /export/servers/kafka_2.11-0.11.0.0bin/kafka-console-consumer.sh --zookeeper node01:2181 --topic first2 ,java ...

2019-07-20 11:58:15 374

原创 4 ,kafka 消费者组,案例 ( 群发,单发 )

一 ,单发 : 同一时刻,只有一个消费者消费1 ,思路 :生产者 : broker1消费者 : broker2 , broker3消费者组 : hei ( 包含 broker2 , broker3 )期待的结果 : 同一时刻,只有一个消费者在消费数据,其实是达到了 ( 容错 ) 的效果。可以做什么用 : 容错,备份的作用2 ,broker1 :生产者,直接打开 :在 no...

2019-07-18 22:11:47 833

原创 3 ,Kafka 工作流程分析,生产,保存,消费

一 ,producer 生产消息 :1 ,写入方式 : 生产者写数据的过程 producerproducer :生产者push :推patition :分区broker : kafka 的分机写过程 :producer 采用 push 模式将消息发布到 broker,每条消息都被 append 到 patition 中,属于顺序写磁盘 ( 顺序写磁盘效率比随机写性能要高,保障 k...

2019-07-18 21:44:07 471

原创 2 ,Kafka 集群部署,启动,关闭,命令行操作

一 ,安装 :1 ,规划 :node01node02node03zkzkzkkafkakafkakafka2 ,安装包下载 :要这个 : Scala 2.11 - kafka_2.11-0.11.0.0.tgz (asc, md5)http://kafka.apache.org/downloads.html3 ,得到 :kafka_2.11...

2019-07-18 20:10:03 6042

原创 1,kafka 介绍,消息队列,大气球,架构模型

1 ,Kafka 简介 :Apache 软件基金会开发由 Scala 和 Java 编写应用 : Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。实时消息 : Kafka 的目的是通过 Hadoop 的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。高吞吐量 :即使是非常普通的硬件 Kafka 也可以支持每秒数百万...

2019-07-18 11:28:35 254

原创 9,flume 面试题,个人总结 :

1 ,如何实现 flume 传输数据的实时监控使用第三方框架 ganglia2 ,flume 的 source,sink,channel 的作用,你们的 source 类型是 ?source :搜集数据channel :数据缓存sink :把数据发送到目的地常用 source 类型 :1 ,监控文件 :exec2 ,监控目录 :spooldir3 ,flume 选择器 :...

2019-07-18 00:33:33 1620

原创 8 ,ganglia :flume 数据监控

一 ,在 node01 上安装 ganglia :1 ,flume 监控 :目的 : 看看数据有没有丢失,如果丢,会丢多少。2 ,安装 httpd :mount /dev/sr0 /mnt/cdrom/yum -y install httpd3 ,安装 php :yum -y install php4 ,安装依赖 :yum -y install rrdtoolyum -y in...

2019-07-17 23:17:11 483

原创 7 ,多源单出口

一 ,思路 :1 ,需求 :采集多个源,到同一个 flume 的控制台。2 ,架构图 :3 ,案例 :flume1 : 在 node01 上,监控 hive 的日志文件。flume2 : 在 node02 上,监控网络端口。flume3 : 在 node03 上,接收 1, 2 的数据,打印在控制台上。二 ,动手 :1 ,把 flume 发到 node02,和 node03...

2019-07-17 21:01:52 88

原创 6 ,单源多出口,avro ,负载均衡,高可用

一 ,多输出1 ,要求 :数据来源 : 文件监控数据去向 : hdfs + 本地分配机制 : 复制 ( 两个目的地的数据完全一致 )2 ,架构图 :3 ,思路 :flume1 :接收文件变化flume2 :建数据下沉到 hdfsflume3 :将数据下沉到 本地4 ,配置文件 :vim flume1.conf目的 : 配置 1 个接收日志文件的 source 和...

2019-07-17 19:43:17 197

Typora-课件.zip

一款很好用的工具,很多人在使用,这个是 typora 使用指南,希望对大家有所帮助

2018-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除