2019年07月_孙砚秋

原创 3 ，CM 使用

1 ，构建集群 1 ：2 ，配置 parcel3 ，重启：关闭 CM Server ： node01cd /export/servers/cm-5.14.0/etc/init.d./cloudera-scm-server stop关闭 agent ： node01 , node02 , node03cd /export/servers/cm-5.14.0/etc/in...

2019-07-31 22:47:04 338

原创 2 ，clouderaManager 详情，CM 安装，hdfs，yarn ，zk

一，环境准备：1 ，安装软件：方式一：下载一个压缩包，就可以了。方式二： yum 安装，但是需要把源定位在 cdh。方式三： rpm 包安装。方式四：在 web 页面点几下就好。2 ，两个重要的网址：CDH5.14.0http://archive.cloudera.com/cdh5/parcels/5.14.0/Cloudera Manager5.14.0...

2019-07-31 12:49:20 704

原创 1，clouderaManager 介绍：免费版介绍

一，架构图：1 ，Cloudera Manager 是啥？主要是干啥的？官：简单来说，Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具（软件）,使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。孙：安装集群，监控集群2 ，cloudera manager 有四大功能：管...

2019-07-29 19:08:58 2054

原创 4 ，脚本打包：

1 ，为什么要把脚本打包：生产环境中，不会总是在命令行操作。每天用定时任务，进行数据的导入导出操作。2 ，建脚本：mkdir -p /root/sqoopcd /root/sqooptouch job_HDFS2RDBMS.opt3 ，编辑脚本内容：将 hdfs 导出到 mysqlvim job_HDFS2RDBMS.optexport--connectjdbc:...

2019-07-29 17:35:18 386

原创 3 ，导出数据： hdfs 到 mysql

1 ，理论：支持： hive ，hdfshive 或者 hdfs 是一个意思。不支持 hive 导出数据。2 ，为什么要导出：把查询结果封装起来。查询结果一定是个小表，不会像 hbase 那样的大表。web 页面通常使用的数据是来自 mysql 这样的关系型数据库的。3 ，目的：把 hdfs 中的数据导出到 mysql ，新建一个表 ( staff1 )4 ，m...

2019-07-29 16:53:24 1206

原创 2 ，导入数据： mysql 到 hdfs ，mysql 到 hive ，mysql 到 hbase

1 ，mysql 建库，建表：sqlcreate database company;create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));insert into company.staff(name, sex) valu...

2019-07-29 16:21:19 523

原创 1 ，sqoop 简介，原理，安装

一，介绍：1 ，Sqoop 简介Apache Sqoop ( TM ) 是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop 于 2012 年 3 月孵化出来，现在是一个顶级的 Apache 项目。最新的稳定版本是 1.4.6。Sqoop2 的最新版本是 1.99.7。请注意，1.99.7与1.4.6不兼容，且没有特征，不...

2019-07-29 12:13:49 214

原创 6 ，oozie 的定时调度 ( coordinator )

1 ，目标：周期性调度任务2 ，配置 oozie-site.xml 文件：oozie 时区cd /export/servers/oozie-4.1.0-cdh5.14.0/confvim oozie-site.xml属性：oozie.processing.timezone属性值：GMT+0800解释：修改时区为东八区区时3 ，修改 js 框架中的关于时间设置的代码vi ~/...

2019-07-29 01:06:10 1411 1

原创 5 ，调度 mr 任务：

1 ，目标：使用 Oozie 调度 MapReduce 任务2 ，准备 jar 包找到一个可以运行的 mapreduce 任务的 jar 包 ( 可以用官方的，也可以是自己写的 ) 。3 ，解压模板文件： ( 注意：解压模板变了 )解压：cd /export/servers/oozie-4.1.0-cdh5.14.0mkdir test03cp oozie-example...

2019-07-29 00:38:37 312

原创 4 ，逻辑调度，多个 job

1 ，目标：先执行第一个任务，在执行第二个任务2 ，流程图：3 ，建文件夹：cd /export/servers/oozie-4.1.0-cdh5.14.0mkdir test024 ，解压模板文件：cd /export/servers/oozie-4.1.0-cdh5.14.0cp oozie-examples.tar.gz test02cd /export/serv...

2019-07-28 22:57:42 305

原创 3 ，官网翻译：

1 ，概述 ( Overview )oozie 的工作流概述 ( Oozie Workflow Overview)Oozie 是工作流引擎，oozie 是一个 javaWeb 项目为了 oozie 的目的，一个工作流，就是一个动作的集合，动作被安排在有向无环图里，前面的结束，后面的才能进行。2 ，流程图：目的：hpdl ( 一种 xml 流程定义语言 )<!-- ...

2019-07-28 00:26:55 121

原创 2 ，oozie 调度 shell 脚本：

1 ，目标：使用 oozie 调度 Shell 脚本，测试一下环境是否好用。2 ，解压官方案例模板：cd /export/servers/oozie-4.1.0-cdh5.14.0mkdir test01cp oozie-examples.tar.gz test01cd /export/servers/oozie-4.1.0-cdh5.14.0/test01tar -xzvf o...

2019-07-28 00:07:11 218

原创 1，mysql 访问：

1 ，让 mysql 既可以远程访问也可以本地访问：切换库： mysql修改表： select * from user;刷新权限：FLUSH PRIVILEGES;

2019-07-27 17:27:53 142

原创 1 ，oozie 简介，模块介绍，部署，启动，关闭

一，oozie 简介：1 ，oozie 官网：http://archive.cloudera.com/cdh5/cdh/5/oozie-4.1.0-cdh5.14.0/2 ， oozie 下载：http://archive.cloudera.com/cdh5/cdh/5/3 ，oozie 作用：官方：工作流调度系统。孙：多个 job 要执行，谁先谁后，什么时候执行...

2019-07-27 17:19:34 732

转载 13 ，hbase 高级知识：

1 ，HBase 在商业项目中的能力：每天：消息量：发送和接收的消息数超过60亿将近1000亿条数据的读写高峰期每秒150万左右操作整体读取数据占有约55%，写入占有45%超过2PB的数据，涉及冗余共6PB数据数据每月大概增长300千兆字节。...

2019-07-26 16:01:26 69

原创 12，谷粒微博项目：

一，需求：1 ，需求：微博内容的浏览，数据库表设计用户社交体现：关注用户，取关用户拉取关注的人的微博内容2 ，建表： 2 表 1 视图用户信息表：用户 id + 时间戳，用户信息，用户发文。用户关系表：我关注过的人，关注过我的人。最近消息视图：我关注过的人，发表过的所有文章。 ( 我登录后，就看我的好友中，最近发过的消息，时间最近的 5 个消息，不管是...

2019-07-26 15:45:59 350

原创 11，优化 ( 内存优化，基础优化 )

1 ，内存：官方：HBase 操作过程中需要大量的内存开销，毕竟 Table 是可以缓存在内存中的，一般会分配整个可用内存的70%给HBase的Java堆。但是不建议分配非常大的堆内存，因为GC过程持续太久会导致RegionServer处于长期不可用状态，一般16~48G内存就可以了，如果因为框架占用内存过高导致系统内存不足，框架一样会被系统服务拖死。孙：给 java 20G 左右...

2019-07-26 15:05:37 240

原创 10，预分区，rowkey 设计

一，预分区1 ，默认分区规则：官方：HBase 默认建表时有一个region，这个region的rowkey是没有边界的，即没有startkey和endkey，在数据写入时，所有数据都会写入这个默认的region，随着数据量的不断增加，此region已经不能承受不断增长的数据量，会进行split，分成2个region。孙：默认按住数据的大小分区，不按照数据的条数分区。2 ...

2019-07-26 14:37:11 617

原创 9 ，hbase 高可用

一，高可用：1 ，在 conf 目录下创建 backup-masters 文件：touch backup-masters2 ，输入文件内容：echo node02 > backup-masters3 ，将文件分发给其他节点scp backup-masters root@node02:PWDscpbackup−mastersroot@node03:PWDscp backu...

2019-07-26 13:17:53 147

原创 8 ，hive 集成 hbase ( hbase 表已经存在，我们用 hive 创建表去关联它 )

一，集成1 ，作用：分析hbase 只能做存储，不能做分析。hbase 要想分析数据，必须集成第三方框架。分析框架： mr ，hive ，spark要想分析 hbase 中的数据，必须用到第三方框架。2 ，集成：将 hbase 的 jar 包给 hive ( 用软链接的形式 )ln -s $HBASE_HOME/lib/hbase-common-1.2.0-cdh5...

2019-07-24 23:49:50 453

原创 7 ，hbaseAPI 操作：连接 mapreduce

一，连接 mapreduce ：1 ，介绍：简介： hbase 可以和 mr 勾搭上。详细：通过 HBase 的相关 JavaAPI，我们可以实现伴随 HBase 操作的 MapReduce 过程，比如使用MapReduce 将数据从本地文件系统导入到 HBase 的表中，比如我们从 HBase 中读取一些原始数据后使用 MapReduce 做数据分析。2 ，...

2019-07-24 10:47:20 411

原创 6 ，hbaseAPI 操作：增删改查

1 ，查看所有表：// 查看所有表@Testpublic void listAll() throws IOException { // 配置信息 Configuration conf = HBaseConfiguration.create(); // zk 的 ip , 端口 conf.set("hbase.zookeeper.quorum", "no...

2019-07-24 10:43:41 187

原创 5 ，hbase 数据结构，HBase 读写原理

一，hbase 数据结构1 ，RowKey ：主键与 nosql 数据库们一样，RowKey 是用来检索记录的主键。访问 HBASE table 中的行，只有三种方式：1 ，通过单个RowKey访问2 ，通过RowKey的range（正则）3 ，全表扫描RowKey 行键 (RowKey)可以是任意字符串(最大长度是64KB，实际应用中长度一般为 10-100bytes)，在HB...

2019-07-23 23:55:34 169

原创 4 ，hbase 的 shell 操作：

1 ，进入 shell ：cd /export/servers/hbase-1.2.0-cdh5.14.0bin/hbase shell2 ，查看帮助：help3 ，退出：exit;4 ，库：hbase 不分库5 ，表：查看所有表list6 ，名称空间：默认 default 。如果不指定，就用 default 这个名称空间。7 ，名称空间：查看所有名...

2019-07-23 21:09:45 170

1 ，hbase.rootdir这个目录是 region server 的共享目录，用来持久化 HBase。URL 需要是’完全正确’的，还要包含文件系统的 scheme。例如，要表示 hdfs 中的 ‘/hbase’ 目录，namenode 运行在namenode.example.org 的 9090 端口。则需要设置为hdfs://namenode.example.org:9000/hba...

2019-07-23 15:35:53 1851

原创 2 ，habse 安装与启动：完全分布式

一，安装：1 ，下载：网站：http://archive.cloudera.com/cdh5/cdh/5/得到：hbase-1.2.0-cdh5.14.0.tar.gz2 ，文档：http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0/3 ，上传：到这个目录/export/softwares4 ，解...

2019-07-23 15:22:53 438

原创 1 ，hbase 简介，准实时，适用场景 ( region ，store ，storeFile 关系 )

一，概况：1 ，百度百科：是什么： HBase是一个分布式的、面向列的开源数据库bigtable ：该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。依托 hdfs 就像 Bigtable 利用了 Google 文件系统（File System）所提供的分布式数据存储一样，HBase 在 Hadoop 之上提供了类似于...

2019-07-20 21:25:11 1621

原创 9 ，kafka 三大配置文件：

1 ，Broker 配置信息属性默认值描述broker.id必填参数，broker的唯一标识log.dirs/tmp/kafka-logsKafka数据存放的目录。可以指定多个目录，中间用逗号分隔，当新partition被创建的时会被存放到当前存放partition最少的目录。port9092BrokerServer 接受客户端连接的端口号zo...

2019-07-20 16:22:48 207

原创 8 ，kafka 与 flume 比较，flume 与 kafka 整合，cloudera 介绍

一，理论：1 ，cloudera ：收费标准使用：不收钱。出问题：来解决的时候，收取服务费。公司中： cdh 的使用，用的很多。2 ，flume 与 kafka 比较：开发的公司：1 ，flume ： cloudera2 ，kafka ： linkedinflume ：使用场景1 ，多个生产者，少量消费者2 ，对数据安全性要求不高3 ，适合于 ha...

2019-07-20 16:07:58 255

原创 7，kafka stream ：kafka 并行度，kafka 流式处理

一，并行度：同时进行的程序，处理同一组数据1 ，实时性： kafka , storm ，spark ，flink微批次处理：好多条数据一起处理。代表： spark非微批次处理：每条数据处理一次，实时性更好。代表： storm , kafkaflink ：对于 spark 做了一些改进，形成了这么个东西。2 ，怎样增加 kafka 并行度：基础知识每个消...

2019-07-20 14:48:44 2198

原创 6 ，kafka 拦截器，拦截器链，案例

一，理论：1 ，哪个版本开始：kafka1.02 ，拦截的位置：生产者3 ，拦截器数量：可以有很多拦截器，形成一个拦截器链4 ，方法介绍：configure ：初始化 ( 调用一次 )获取配置信息和初始化数据时调用。onSend ：前处理，可以对消息进行恩和操作 ( 每条消息，都走一次这个方法 )该方法封装进KafkaProducer.send方法中，即它运行...

2019-07-20 13:11:10 256

原创 5 ，kafka 的 API 操作，生产者，消费者，新版，旧版

0 ，使用场景：低级 API ：常用低级 API ：调错一，生产者：1 ，打开消费者：等着 ( 监听 first 主题 )node01 上：cd /export/servers/kafka_2.11-0.11.0.0bin/kafka-console-consumer.sh --zookeeper node01:2181 --topic first2 ，java ...

2019-07-20 11:58:15 374

原创 4 ，kafka 消费者组，案例 ( 群发，单发 )

一，单发：同一时刻，只有一个消费者消费1 ，思路：生产者： broker1消费者： broker2 , broker3消费者组： hei ( 包含 broker2 , broker3 )期待的结果：同一时刻，只有一个消费者在消费数据，其实是达到了 ( 容错 ) 的效果。可以做什么用：容错，备份的作用2 ，broker1 ：生产者，直接打开：在 no...

2019-07-18 22:11:47 833

原创 3 ，Kafka 工作流程分析，生产，保存，消费

一，producer 生产消息：1 ，写入方式：生产者写数据的过程 producerproducer ：生产者push ：推patition ：分区broker ： kafka 的分机写过程：producer 采用 push 模式将消息发布到 broker，每条消息都被 append 到 patition 中，属于顺序写磁盘 ( 顺序写磁盘效率比随机写性能要高，保障 k...

2019-07-18 21:44:07 471

原创 2 ，Kafka 集群部署，启动，关闭，命令行操作

一，安装：1 ，规划：node01node02node03zkzkzkkafkakafkakafka2 ，安装包下载：要这个： Scala 2.11 - kafka_2.11-0.11.0.0.tgz (asc, md5)http://kafka.apache.org/downloads.html3 ，得到：kafka_2.11...

2019-07-18 20:10:03 6042

原创 1，kafka 介绍，消息队列，大气球，架构模型

1 ，Kafka 简介：Apache 软件基金会开发由 Scala 和 Java 编写应用： Kafka 是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。实时消息： Kafka 的目的是通过 Hadoop 的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。高吞吐量：即使是非常普通的硬件 Kafka 也可以支持每秒数百万...

2019-07-18 11:28:35 254

原创 9，flume 面试题，个人总结：

1 ，如何实现 flume 传输数据的实时监控使用第三方框架 ganglia2 ，flume 的 source,sink,channel 的作用，你们的 source 类型是？source ：搜集数据channel ：数据缓存sink ：把数据发送到目的地常用 source 类型：1 ，监控文件：exec2 ，监控目录：spooldir3 ，flume 选择器：...

2019-07-18 00:33:33 1620

原创 8 ，ganglia ：flume 数据监控

一，在 node01 上安装 ganglia ：1 ，flume 监控：目的：看看数据有没有丢失，如果丢，会丢多少。2 ，安装 httpd ：mount /dev/sr0 /mnt/cdrom/yum -y install httpd3 ，安装 php ：yum -y install php4 ，安装依赖：yum -y install rrdtoolyum -y in...

2019-07-17 23:17:11 483

原创 7 ，多源单出口

一，思路：1 ，需求：采集多个源，到同一个 flume 的控制台。2 ，架构图：3 ，案例：flume1 ：在 node01 上，监控 hive 的日志文件。flume2 ：在 node02 上，监控网络端口。flume3 ：在 node03 上，接收 1, 2 的数据，打印在控制台上。二，动手：1 ，把 flume 发到 node02，和 node03...

2019-07-17 21:01:52 88

原创 6 ，单源多出口，avro ，负载均衡，高可用

一，多输出1 ，要求：数据来源：文件监控数据去向： hdfs + 本地分配机制：复制 ( 两个目的地的数据完全一致 )2 ，架构图：3 ，思路：flume1 ：接收文件变化flume2 ：建数据下沉到 hdfsflume3 ：将数据下沉到本地4 ，配置文件：vim flume1.conf目的：配置 1 个接收日志文件的 source 和...

2019-07-17 19:43:17 197

Typora-课件.zip

空空如也