rav009的专栏

Python SQL ETL .net 数据挖掘

Cloudera Manager 简介

Cloudera Manager 简称 CM, 是企业级的大数据集群安装/升级/管理平台, 帮助用户通过网页上的简单操作控制整个集群. 其功能如下: 1. 提供一个software repository, 方便在各个节点上安装大数据的组件 2. 批量配置 3. 集群监控 4. 集群升级/...

2019-01-15 14:14:16

阅读数 15

评论数 0

Lambda 架构 Speed Layer 详解

前文链接: https://blog.csdn.net/rav009/article/details/85690985 Speed Layer作为实时处理层和离线处理层相辅相成, 当增量数据被离线处理完毕, 实时层就不必继续处理这批数据了, 术语叫作: Expiring Real-Time Vi...

2019-01-04 18:56:53

阅读数 40

评论数 0

Lambda 架构 Batch Layer & Serving Layer 详解

前文链接: https://blog.csdn.net/rav009/article/details/85690985 继续介绍 Lambda结构 一些理念: fact-based model 在关系型数据库的时代,我们通过维度表和事实表来组成数据仓库。但是到了大数据时代,由于数据的容量不再...

2019-01-03 16:16:03

阅读数 40

评论数 0

Lambda 架构 简介

  上图就是lambda结构的一个示意, 来自图书Big Data Principles and best practices of scalable realtime data system, 该书的作者就是lambda架构的创造者Nathan Marz。 大数据的技术手段百花齐放, 各...

2019-01-03 13:55:18

阅读数 1733

评论数 0

hive 使用 beeline 执行hql传参数; hive 使用distcp 和 MSCK 进行hive数据库迁移

beeline 命令 -u 指定链接 -e 指定hql -f 指定hql文件 --hiveconf 指定传参数,  参数在hql里形如 ${hiveconf:var}, 要有hiveconf:前缀 jdbc='jdbc:hive2://bd-master01-pe2.f.cn:1000...

2018-12-21 18:34:07

阅读数 89

评论数 0

企业级大数据的安全方案 & Kerberos 的 expire 及 renew说明

企业级大数据集群有两个层面的安全系统: 一个是每一台服务器的本地有个linux的账户系统,这个可以批量处理配置。为每个服务器建立一个本地的账号和组。用这个账号去SSH登录。 另一个就是大数据集群,即Hadoop的账号系统,是Hadoop通过 Kerberos 协议实现的。Kerberos是一个...

2018-12-04 18:38:42

阅读数 47

评论数 0

AWS Redshift 导出数据 进入 S3

AWS Redshift 支持一个命令 Unload, 可以快速的导出数据进入 AWS S3 UNLOAD ('select * from apfdb.common.t_rep_fr_r_loc_sku_dy_act_confirmed WHERE LOC_CNTRY_CDE=''03'' a...

2018-11-21 20:26:09

阅读数 37

评论数 0

Oracle 和 AWS Redshift 获取 数据库所有表名和列名的

Oracle 表名区分大小写。 select table_name from user_tables where table_name like '%xxxxx%'; select OWNER, TABLE_NAME, COLUMN_NAME from all_tab_columns wh...

2018-11-19 11:20:30

阅读数 21

评论数 0

Kettle Number & BigNumber Format

在Spoon的文件栏, Edit->Edit Kettle Properties files 将 KETTLE_DEFAULT_BIGNUMBER_FORMAT 项配置为0.##### 否则的话, 默认Kettle对它认为是BigNumber的列 ,把0 会强行写成0.0...

2018-11-05 19:13:02

阅读数 173

评论数 0

CDH 大数据疑难解决一则

起因:  Hive查询变慢 观察: Cloudera Manager中某个Datanode报错, Health Chart每隔几分钟有红色不健康状态 观察日志: 在 /data/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-dw-slave01-te.uni...

2018-11-02 17:44:51

阅读数 59

评论数 0

一段批处理, 遍历文件夹里的csv文件压缩, 压缩包的文件名是源文件名的截取

echo off SETLOCAL ENABLEDELAYEDEXPANSION set work_path=F:\somefolder F: cd %work_path% for /R %%s in (*.csv) do ( set fname=%%s echo !fname:~-30,...

2018-10-15 18:26:40

阅读数 33

评论数 0

Kettle 中的 filenames result 系统

在部分文件处理的kettle组件中, 你能找到一个勾选框, 名字叫 "Add filenames to result". 这是什么意思呢? Kettle有一个文件名系统, 专门储存了最近生成的或者处理过的文件名列表, 以供进一步处理, 比如移动, copy或...

2018-09-30 11:16:47

阅读数 106

评论数 0

7z命令行压缩加密文件

假设你的7z 安装目录是C:\Program Files\7-Zip\, 可以使用如下的命令行压缩文件, 其中a表示add, source.csv是被压缩的文件, -p123表示密码是123, -tzip表示压缩格式是zip  "C:\Program Files\7-Zip...

2018-09-29 12:02:52

阅读数 389

评论数 0

Pentaho Kettle 连接 CDH Hive (No suitable driver found for jdbc:hive2 错误解决方法)

关键点:  清理Kettle缓存: rm -rf  /home/user/data-integration/./system/karaf/caches rm -rf  /home/user/data-integration/./system/karaf/data   配置Kettle b...

2018-09-28 17:39:37

阅读数 334

评论数 0

大数据备份 -- CDH 向 Azure Storage 备份HDFS

转自:  https://blogs.msdn.microsoft.com/pliu/2016/06/19/backup-cloudera-data-to-azure-storage/   Azure Blob Storage supports an HDFS interface which...

2018-09-28 10:07:10

阅读数 86

评论数 0

一句命令行 判断hive CDH 版本

locate */hive/lib/hive*jar 转自: https://blog.csdn.net/sinat_27339001/article/details/78438947     locate */hive/lib/hive*jar | grep hive-exec  

2018-09-27 18:33:44

阅读数 208

评论数 0

一段 VB 代码自动运行图形界面程序 发送按键指令

用于ETL流程中, 有不支持命令行, 只能GUI交互的程序要实现自动化调用 可以参考下面这段VB. 启动了程序, 还在5秒后自动按了一下回车键. Dim Shell Set Shell=WScript.CreateObject("WScript.Shell&quot...

2018-09-25 13:13:37

阅读数 105

评论数 0

Pentahou Kettle 在Job里使用Javascript 处理复杂逻辑

SSIS 有 script component 允许用户用C# 或者 VB来定义复杂逻辑 Pentaho Kettle 有 Javascript 允许用户用js来定义复杂逻辑 Javascript 最后必须返回一个布尔变量(如下面示例代码中的 true;), 表示成功或者失败 可用使用 pa...

2018-09-18 16:35:37

阅读数 208

评论数 0

Pentaho Kettle 连 Oracle (SID)

首先要下载Oracle的 JDBC 驱动放到 Kettle的lib目录下 然后在Transform里具体连接Oracle的时候, 注意数据库名称填的是SID. 怎么获Oracle取数据库的SID? 可以运行下面的语句, 第一句获取数据库版本, 第二句就是SID --Get Versio...

2018-09-17 16:51:58

阅读数 90

评论数 0

Kafka

https://www.cnblogs.com/xjh713/p/7388262.html Kafka专用术语: Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群。 Topic:一类消息,Kafka集群能够同时负...

2018-09-17 11:35:15

阅读数 32

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭