2020年06月_不温卜火

原创 Phoenix快速入门系列(3) | 一文教你如何在Phoenix中创建 HBase 二级索引

此篇为大家带来的是一文教你如何在Phoenix中创建 HBase 二级索引。目录一. HBase 的二级索引二. 配置 HBase 支持 Phoenix 创建二级索引三. Phoenix 创建索引1. Phoenix 索引分类2. 创建索引总结一. HBase 的二级索引在前面的学习中, 我们知道 HBase 只能通过 rowkey 进行搜索, 一般把 rowkey 称作一级索引. 在很长的一段时间里 HBase 就只支持一级索引. HBase 里面只有 rowkey 作为一级索引，

2020-06-30 13:37:55 5221 33

原创 Phoenix快速入门系列(2) | 一文教你如何使用Phoenix

此篇为大家带来的是一文教你如何使用Phoenix。目录一. Phoenix 表操作二. Phoenix 表映射1. Phoenix 表和 HBase 表的关系2 准备工作3. 视图映射4. 表映射5. 视图映射和表映射的对比与总结一. Phoenix 表操作 1. 显示所有表!tables# 或者!table 2 创建表CREATE TABLE IF NOT EXISTS us_population ( state CHAR(2) NOT NULL,

2020-06-29 09:23:48 6579 40

原创 Phoenix快速入门系列(1) | 一文带你了解Phoenix及安装过程(超详细！！！)

此篇为大家带来的是一文带你了解Phoenix及安装过程。安装所需压缩包，如有需要可自行下载链接：https://pan.baidu.com/s/1RO3xpyyexrDaLDb_LtGaMw提取码：gzi3目录一. Phoenix1. 定义2. 特点3. 架构4. 数据存储二. 安装详解一. Phoenix1. 定义 Phoenix 最早是 saleforce 的一个开源项目，后来成为 Apache 的顶级项目。 Phoenix 构建在 HBase 之上的开源 SQL 层.

2020-06-28 09:59:04 6325 38

原创 CDH快速入门系列(3) | CM集群监控状态及集群的使用

此篇为大家带来的是CM集群监控状态及集群的使用。目录一. CM集群监控状态二. 集群的使用2.1 图表2.2 设置2.3 日志2.4 删除或添加集群2.5 Parcel2.6 主机模板一. CM集群监控状态 1.初始状态，有很多有问题的 2. 遇到红色只需重启就好了 3. 因为各种原因，再次就先把问题都抑制了 4. 抑制完成后 5.把所有的服务都重启 6.由于内存不足就会出现下列状况二. 集群的使用2.1 图表 1. 查看正常CPUSELECT cpu_n

2020-06-27 10:32:03 7497 34

原创 CDH快速入门系列(2) | CM集群安装

此篇为大家带来的是CM集群安装。目录一. 提前准备1.1 下载第三方依赖1.2 创建CM用的数据库二. CM安装部署2.1 解压cloudera-manager-el6-cm5.12.1_x86_64.tar.gz2.2 创建用户cloudera-scm（所有节点）2.3 配置CM Agent2.4 配置CM的数据库2.5 分发cloudera-manager2.6 启动和关闭CM Server&Agent 服务2.7 web端查看一. 提前准备1.1 下载第三方依赖//在三台节点（所

2020-06-25 11:07:29 6102 25

原创 CDH快速入门系列(1) | CM的简单介绍及环境准备

此篇为大家带来的是CM的简单介绍及环境准备。搭建CDH所需要的各种文件博主已经打包上传了，如有需要，可自行下载：链接：https://pan.baidu.com/s/1DlDy36BxdLHjyNxar-vZTQ提取码：bmtm目录一. Cloudera Manager1.1 cloudera manager的概念1.2 cloudera manager的功能1.3 cloudera manager的架构二. 配置环境2.1 开始准备1 克隆三台虚拟机2 内存分配(16G内存版本)3 修改

2020-06-24 11:06:24 5574 28

原创 Kylin快速入门系列(6) | 如何通过Zepplin来访问Kylin服务

此篇为大家带来的是如何通过Zepplin来访问Kylin服务。安装所需要的文件博主已经上传到百度云了，如有需要可自行下载链接：https://pan.baidu.com/s/1ZAQ1Uns1H4Ph1NTXQU9ZiQ提取码：nunu目录一. Zepplin安装与启动二. 配置Zepplin支持Kylin三. 举例实操一. Zepplin安装与启动 1. 将zeppelin-0.8.0-bin-all.tgz上传至Linux 2. 解压zeppelin-0.8.0-bin-al

2020-06-23 10:33:34 4971 37

原创 Kylin快速入门系列(5) | 如何使用JDBC连接操作Kylin

现在可以与Kylin结合使用的可视化工具很多，例如：ODBC：与Tableau、Excel、PowerBI等工具集成JDBC：与Saiku、BIRT等Java工具集成 RestAPI：与JavaScript、Web网页集成Kylin开发团队还贡献了Zepplin的插件，也可以使用Zepplin来访问Kylin服务。本篇博客，为大家带来的就是如何使用JDBC操作连接Kylin的步骤流程!目录一. 新建项目一. 新建项目 1.常见项目及名称 2.导入依赖 <d

2020-06-22 12:31:36 6971 37

原创 Kylin快速入门系列(4) | Cube构建优化

此篇为大家带来的是Cube构建优化。目录一. 使用衍生维度（derived dimension）二. 使用聚合组（Aggregation group）四. Row Key优化五. 并发粒度优化上一篇博文我们已经介绍过，在没有采取任何优化措施的情况下，Kylin会对每一种维度的组合进行预计算，每种维度的组合的预计算结果被称为Cuboid。假设有4个维度，我们最终会有24 =16个Cuboid需要计算。但在现实情况中，用户的维度数量一般远远大于4个。假设用户有10 个维度，那么没有经过任何优

2020-06-21 10:24:19 5282 28

原创 Kylin快速入门系列(3) | Cube构建原理

此篇为大家带来的是Cube构建原理。目录一. Cube构建流程二. Cube构建算法1. 逐层构建算法（layer）2. 快速构建算法（inmem）[基于内存]一. Cube构建流程 1. 第一步：创建中间表 2.将中间表的数据均匀分配到不同的文件 3.创建维度字典表 4. 构建cube 5.HBase K-V 6.将cube data 转成GFile格式并导入HBase二. Cube构建算法1. 逐层构建算法（layer）我们知道，一个N维的Cube，是由

2020-06-20 11:40:30 5017 29

原创 Kylin快速入门系列(2) | Kylin的快速入门

此篇为大家带来的是Kylin的快速入门。目录一. 数据准备二. 创建项目1. 登录系统2. 创建工程3. 选择数据源三. 创建Model四. 创建Cube五. Hive和Kylin性能对比1. Kylin查询2. Hive查询一. 数据准备在Hive中创建数据，分别创建部门和员工外部表，并向表中导入数据。 1. 用到的元素数据 2. 建表// 1.创建部门表create external table if not exists default.dept(deptno int

2020-06-19 09:43:50 6153 34

原创 Kylin快速入门系列(1) | Kylin的简单介绍及安装部署

此篇为大家带来的是Kylin的简单介绍及安装部署。安装所需要的文件博主已经上传到百度云了，如有需要可自行下载链接：https://pan.baidu.com/s/1ZAQ1Uns1H4Ph1NTXQU9ZiQ提取码：nunu目录一. Kylin的简单介绍1. Kylin定义2. Kylin架构3. Kylin特点二. 安装部署Kylin(下面的所有步骤所有虚拟机均需操作)三. 安装时可能会遇见的坑一. Kylin的简单介绍1. Kylin定义 Apache Kylin是一个开源的分

2020-06-18 09:13:33 6436 25

原创如何快速爬取新浪新闻并保存到本地

Chapter10 | 面向新闻网站的爬虫一、新闻网站的爬取场景1、网页加载模式2、网页结构二、API遍历方法爬取新闻1、找到API2、分析关键API参数3、根据API参数设计爬虫逻辑4、测试使用三、代码实现1、尝试获取动态网页2、观察URL3、程序3.1、导入所需要的包3.2、编写抽取模块1、使用BeautifulSoup，编写抽取模块编写一个函数，函数功能是通过传入的URL参数，利用Beau...

2020-06-17 10:33:45 9278 27

原创 Azkaban快速入门系列(3) | 一文带你快速了解Azkaban的实战应用(建议收藏！！！)

此篇为一文带你快速了解Azkaban的实战应用。目录一. 实战前的准备二. 实战案例一：单一job案例三. 实战案例二：多job工作流案例四. 实战案例三：java操作任务五. 实战案例四：HDFS操作任务六. 实战案例五：mapreduce任务一. 实战前的准备 1. 在executor服务器目录下执行启动命令[bigdata@hadoop002 executor]$ bin/azkaban-executor-start.sh 2. 在azkaban web服务器目录下执行启动命

2020-06-17 09:09:42 6786 32

原创 Azkaban快速入门系列(2) | Azkaban安装部署

此篇为大家带来的是Azkaban安装部署。安装部署Azkaban所需要的文件博主已经亲自打包上传到百度云了，如有需要可以自行下载：链接：https://pan.baidu.com/s/1CKs8EqBLnJwvPuwCxkx5UA提取码：jh3j目录一. 安装前准备二. 安装Azkaban三. 生成密钥对和证书四. 时间同步配置五. 修改配置1. Web服务器配置2. 执行服务器配置六. 分别启动executor服务器和web服务器七. web查看一. 安装前准备 1. 将Azkab

2020-06-15 14:27:39 5247 27

原创 Azkaban快速入门系列(1) | Azkaban的简单介绍

此篇为大家带来的是Azkaban的简单介绍。目录一. 工作流调度器概述1. 为什么需要工作流调度系统2. 工作流调度实现方式3. 常见工作流调度系统4. 各种调度工具特性对比5. Azkaban与Oozie对比二. Azkaban1. 什么是azkaban2. Azkaban特点3. Azkaban的架构一. 工作流调度器概述1. 为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元

2020-06-14 11:14:39 5384 29

原创 Oozie快速入门系列(2) | 一文带你快速了解Oozie的使用(超详细！！！)

此篇为大家带来的是Oozie的使用。目录一. Oozie调度shell脚本二. Oozie逻辑调度执行多个Job一. Oozie调度shell脚本目标：使用Oozie调度Shell脚本大体过程如下： 1. 创建工作目录[bigdata@hadoop002 oozie-4.0.0-cdh5.3.6]$ mkdir oozie-apps/[bigdata@hadoop002 oozie-apps]$ mkdir shell[bigdata@hadoop002 oozie-ap

2020-06-13 09:52:20 6306 22

原创 Oozie快速入门系列(1) | Oozie的简单介绍及部署

此篇为大家带来的是Oozie的简单介绍及部署。此部分所需jar包等博主已经打包上传到百度云如有需要，请自行下载链接：https://pan.baidu.com/s/1H3BvKEftWKitjDf2EhX44g提取码：96a7目录一. 什么是Oozie二. Oozie的功能模块介绍2.1 模块2.2 常用节点三. Oozie的部署3.1 部署Hadoop(CDH版本)1. 上传及解压缩2. 修改Hadoop配置3.一. 什么是Oozie Oozie英文翻译为：驯象人。一个基于工作流

2020-06-12 09:24:40 5604 35

原创 Sqoop快速入门系列(3) | Sqoop常用命令及参数解析(建议收藏！！！)

此篇为大家带来的是Sqoop常用命令及参数解析。目录一. 常用命令列举二. 公用参数1. 公用参数：数据库连接2. 公用参数：import3. 公用参数：export4. 公用参数：hive三. 命令&参数3.1 命令&参数：import1. 命令2. 参数3.2 命令&参数：export1. 命令2. 参数3.3 命令&参数：codegen1. 命令2. 参数3.4 命令&参数：create-hive-table1. 命令2. 参数3.5 命令&参数：

2020-06-11 09:23:31 4542 31

原创 Sqoop快速入门系列(2) | Sqoop数据导入与导出

此篇为大家带来的是Sqoop数据导入与导出。目录一. 导入数据1. RDBMS到HDFS2. RDBMS到Hive3. RDBMS到Hbase二. 导出数据HIVE/HDFS到RDBMS三. 脚本打包一. 导入数据在Sqoop中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，叫做：导入，即使用import关键字。1. RDBMS到HDFS确定Mysql服务开启正常[bigdata@hadoop002 sqoop]$ mysql

2020-06-10 08:29:12 6278 34

原创快速入门Tableau系列 | Chapter06【填充地图、多维地图、混合地图】

18、填充地图18.1 各省售电量填充地图

2020-06-09 16:51:21 6357 1

原创 Sqoop快速入门系列(1) | Sqoop的简单介绍及安装解析

此篇为大家带来的是Sqoop的简单介绍及安装解析。所需文档等博主已经打包到百度云，如有需要请自行提取：链接：https://pan.baidu.com/s/1QVJMj1JHQR80UDfqOGrTYw提取码：pnxs目录1. Sqoop的简单介绍2. sqoop1与sqoop2架构对比3. Sqoop原理4. Sqoop的安装过程1. 上传并解压2. 修改配置文件3. 拷贝JDBC驱动4. 验证Sqoop5. 测试Sqoop是否能够成功连接数据库1. Sqoop的简单介绍 Sqoo

2020-06-09 10:49:03 5324 35

原创 HBase项目实战系列(1) | Weibo项目简易版(附全代码)

此篇为大家带来的是HBase项目实战系列(1) | 谷粒微博全过程。目录1. 需求分析2. 代码实现1 代码设计总览：2. 创建项目及添加依赖3. 创建命名空间以及表名的定义1. 需求分析1.微博内容的浏览，数据库表设计2.用户社交体现：关注用户，取关用户3.拉取关注的人的微博内容微博表的分析 1. 2. 项目所需要的表2. 代码实现1 代码设计总览：1.创建命名空间以及表名的定义2. 创建微博内容表3.创建用户关系表4.创建用户微博内容接收邮件表5.发布微博

2020-06-08 10:44:58 6990 39

原创 HBase快速入门系列(10) | HBase知识点总结(建议收藏！)

此篇为大家带来的是HBase知识点总结(建议收藏！)。目录1. 读写请求会集中到某一个RegionServer上如何处理（数据倾斜）2. hbase查询一条记录的方法是什么？Hbase写入一条记录的方法是什么？3. 描述hbase的rowkey的设计原理4. hbase中compact的用途是什么，什么时候触发，分为哪两种，有什么区别。5. Hbase的原理 regionserver挂了如何恢复数据？新的数据从Hlog里读出来是如何恢复的6. 讲一下Hbase，Hbase二级索引用过吗7. Hb

2020-06-07 09:24:21 5768 30

原创 HBase快速入门系列(9) | HBase优化

此篇为大家带来的是HBase优化。目录1. HBase HA(高可用)2. 预分区3. RowKey设计4. 内存优化5. 基础优化1. HBase HA(高可用) 在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。 1. 关闭HBase集群（如果没有开启则跳过此步）[bigdat

2020-06-06 08:34:29 4619 30

原创 HBase快速入门系列(8) | 一文教你HBase与Hive如何集成

此篇为大家带来的是HBase与Hive的集成。目录一. 两者对比1. Hive2. HBase二. HBase与Hive集成使用1. 编译jar包2. 环境准备3. 测试案例14. 测试案例2一. 两者对比1. Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。 (2) 用于数据分析、清洗 Hive适用于离线的数据分析和清洗，延迟较高。 (3) 基于HDFS、MapReduce

2020-06-05 09:57:46 7615 29

原创 HBase快速入门系列(7) | 官方HBase-MapReduce与自定义

此篇为大家带来的是官方HBase-MapReduce与自定义。目录1. 官方HBase-MapReduce1．查看HBase的MapReduce任务的执行2. 环境变量的导入2. 自定义HBase-MapReduce13. 自定义HBase-MapReduce2 通过HBase的相关JavaAPI，我们可以实现伴随HBase操作的MapReduce过程，比如使用MapReduce将数据从本地文件系统导入到HBase的表中，比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。

2020-06-03 10:35:18 5697 32

原创 HBase快速入门系列(6) | Hbase简单的API操作

此篇为大家带来的是Hbase简单的API操作。目录1. 添加依赖2. HBaseAPI1. 添加依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</versi

2020-06-01 12:58:53 4683 32

不温卜火