自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rav009的专栏

大数据相关 Python相关

  • 博客(13)
  • 资源 (9)
  • 收藏
  • 关注

原创 Kettle 中的 filenames result 系统

在部分文件处理的kettle组件中, 你能找到一个勾选框, 名字叫 "Add filenames to result".这是什么意思呢?Kettle有一个文件名系统, 专门储存了最近生成的或者处理过的文件名列表, 以供进一步处理, 比如移动, copy或者删除在Job的design中你能找到几个组件专门用来处理这些被kettle记住了名字的文件.比如:Process resul...

2018-09-30 11:16:47 1012

原创 7z命令行压缩加密文件

假设你的7z 安装目录是C:\Program Files\7-Zip\, 可以使用如下的命令行压缩文件,其中a表示add, source.csv是被压缩的文件, -p123表示密码是123, -tzip表示压缩格式是zip "C:\Program Files\7-Zip\7z.exe" a source.csv.zip source.csv -p123 -tzip参考文档:htt...

2018-09-29 12:02:52 9846

原创 Pentaho Kettle 连接 CDH Hive (No suitable driver found for jdbc:hive2 错误解决方法)

关键点:清理Kettle缓存:rm -rf /home/user/data-integration/./system/karaf/cachesrm -rf /home/user/data-integration/./system/karaf/datakaraf 是Kettle用于实现插件的一个组件, 比如一些大数据有关的shim都算做kettle的插件配置Kettl...

2018-09-28 17:39:37 9078 2

转载 大数据备份 -- CDH 向 Azure Storage 备份HDFS

转自: https://blogs.msdn.microsoft.com/pliu/2016/06/19/backup-cloudera-data-to-azure-storage/ Azure Blob Storage supports an HDFS interface which can be accessed by HDFS clients using the syntax w...

2018-09-28 10:07:10 524

转载 一句命令行 判断hive CDH 版本

locate */hive/lib/hive*jar转自: https://blog.csdn.net/sinat_27339001/article/details/78438947   locate */hive/lib/hive*jar | grep hive-exec 

2018-09-27 18:33:44 995

原创 一段 VB 代码自动运行图形界面程序 发送按键指令

用于ETL流程中, 有不支持命令行, 只能GUI交互的程序要实现自动化调用 可以参考下面这段VB.启动了程序, 还在5秒后自动按了一下回车键.Dim ShellSet Shell=WScript.CreateObject("WScript.Shell")Shell.Run """C:\Program Files (x86)\some.exe"""WScript.Sleep 5000...

2018-09-25 13:13:37 983

原创 Pentahou Kettle 在Job里使用Javascript 处理复杂逻辑

SSIS 有 script component 允许用户用C# 或者 VB来定义复杂逻辑Pentaho Kettle 有 Javascript 允许用户用js来定义复杂逻辑Javascript 最后必须返回一个布尔变量(如下面示例代码中的 true;), 表示成功或者失败可用使用 parent_job.setVariable(); 来定义变量下面有一段示例代码, 使用了js 和日期...

2018-09-18 16:35:37 2342 1

原创 Pentaho Kettle 连 Oracle (SID)

首先要下载Oracle的 JDBC 驱动放到 Kettle的lib目录下然后在Transform里具体连接Oracle的时候, 注意数据库名称填的是SID.怎么获Oracle取数据库的SID? 可以运行下面的语句, 第一句获取数据库版本, 第二句就是SID--Get Version Info select * from v$version;--Get SIDselect ...

2018-09-17 16:51:58 823

转载 Kafka简介, Kafka和RabbitMQ区别

https://www.cnblogs.com/xjh713/p/7388262.htmlKafka专用术语: Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群。 Topic:topic是一个逻辑上的概念, 指一类消息,Kafka集群能够同时负责多个topic的分发. 一个topic可以有多个分区 partit...

2018-09-17 11:35:15 261

转载 Difference between orc and parquet format

参考:https://www.cnblogs.com/ITtangtang/p/7677912.htmlhttps://blog.csdn.net/yu616568/article/details/51868447https://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/...

2018-09-14 17:28:17 161

原创 大数据Map Reduce 和 MPP数据库 的区别

下面在这篇文章里对MR的解释很好,从原理的角度出发,mapreduce其实就是二分查找的一个逆过程,不过因为计算节点有限,所以map和reduce前都预先有一个分区的步骤.二分查找要求数据是排序好的,所以Map Reduce之间会有一个shuffle的过程对Map的结果排序. Reduce的输入是排好序的.https://blog.csdn.net/dreamy_lin/arti...

2018-09-06 16:37:19 12926 1

转载 AWS S3 和 Azure Blob的区别比较

转者注: 下文中提到两者间一个底层的显著区别是S3支持不同的存储层(冷 热 存档),不同存储层有不同的收费, 而Blob只有一个存储层  目前BLOB 也跟进了这个feature, 此外,提供一下Azure Blob的三种冗余备份模式说明:Locally Redundant Storage (LRS): All data in the storage account is made dur...

2018-09-06 15:04:46 4258

原创 大数据OLAP Kylin

在传统的关系型数据库中通过预计算预缓存来实现OLAP分析查询并不新鲜, 微软的SSAS就是典型的代表.不过由于SSAS在国外兴起的时候, 国内的大公司还没有意识到SSAS对于企业管理和业务支持的作用, 加上SSAS的正版售价问题. 这项技术在中国国内并不是很流行.现在大数据炙手可热, 通过预计算预缓存的手段来提高大数据的OLAP能力变得自然而然. 于是Kylin应运而生.Kylin的默...

2018-09-05 15:32:55 810

AWS Redshift Kinesis.zip

AWS Redshift & Kinesis Data Stream/MSK/Flink 开发教程文档

2022-01-16

CLOSET+ 算法简论

CLOSET+ 算法简论

2013-05-27

详解python实现FP-TREE进行关联规则挖掘

详解python实现FP-TREE进行关联规则挖掘 python3.2实现,可以生成每一步fp树的图片(需要安装PIL)

2013-05-26

python实现FP-TREE挖掘算法

python3.2实现FP-TREE挖掘算法,可以显示每一步FP树的图片

2013-05-24

数据仓库pdf 合并版

数据仓库pdf 合并版 其他的版本是有多个pdf文件,一章一个,看起来不方便,做了合并成为一个pdf

2013-05-08

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子 注意,请自行根据hbm.xml建立数据库,默认配置用的是mssql2005

2012-09-26

codesmith用的根据数据库生成NHibernate资源的模板

codesmith用的根据数据库生成NHibernate资源的模板

2012-09-08

visual C#网络编程(郑阿奇编)异步通信程序的源代码

visual C#网络编程(郑阿奇编)异步通信程序的源代码

2012-05-21

visual C#网络编程(郑阿奇编)同步通信程序的源代码

visual C#网络编程(郑阿奇编)同步通信程序的源代码

2012-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除