- 博客(11)
- 资源 (95)
- 收藏
- 关注
原创 kettle案例二抽取mysql数据保存到mongodb
我们在案例一中完成了 kettle案例一抽取gz格式文本内容保存到mongodb本次尝试从mysql中抽取数据。详细步骤如下: 启动并建立流程 经过案例一的学习,基本使用kettle转换的流程我们已经清楚了,区别只是在于使用的组件不同而已。 我们第一步还是需要先店家Spoon.bat启动kettle。 建立转换流程如下: 表输入—> MongoDB OutPut ...
2017-11-30 16:45:48 5866
转载 遇到错误----Mongodb----导出数据报错 Sort operation used more than the maximum 33554432 bytes of RAM
遇到的情况线上的列表在运行过程中突然爆出了一个Mongodb 查询的BUG,错误如下: “exception”:”org.springframework.data.mongodb.UncategorizedMongoDbException”, “message”:”Query failed with error code 96 and error message ‘Executor...
2017-11-29 16:30:14 6254
原创 linux积累(一)---查看压缩文件的最后一行
有时候我们需要处理大的压缩文件,查看其中的内容,但是先解压再查看解压的过程会花比较多的时间。一般可以使用 zcat 123.gz 的方式 查看 压缩文件的内容。 也可以使用 less 123.gz more 123.gz less 123.gz|grep rs123 或者 tail -n 123.gz 等命令去查看压缩文件的内容。查看压缩文件行数 zcat 123.gz|
2017-11-29 11:00:27 9277 1
原创 kettle案例一抽取gz格式文本内容保存到mongodb
版本和启动我们这里使用的7.1版本,官网下载的安装包为pdi-ce-7.1.0.0-12.zip。安装目录下非常多的执行程序,但没有明显的启动图标。 Kettle常用三大家族:Spoon、Pan、Kitchen。 Spoon:通过图形界面方式设计、运行、调试Job与Transformation。 Pan: 通过脚本命令方式来运行Transformation。 Kitch...
2017-11-28 20:00:46 3464
原创 ETL工具Kettle简介和安装配置基本使用
什么是KettleKettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是...
2017-11-15 18:35:58 54873
原创 数据仓库多维数据模型设计
建设数据模型既然是整个数据仓库建设中一个非常重要的关键部分,那么,怎么建设我们的数据仓库模型就是我们需要解决的一个问题。这里我们将要详细介绍如何创建适合自己的数据模型。数据仓库建模方法大千世界,表面看五彩缤纷,实质上,万物都遵循其自有的法则。数据仓库的建模方法同样也有很多种,每一种建模方法其实代表了哲学上的一个观点,代表了一种归纳,概括世界的一种方法。目前业界较为流行的数据...
2017-11-09 18:14:59 41563 1
原创 OLAP和多维数据模型
OLAP分析联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;A是可分析性(A...
2017-11-09 15:56:36 26175
原创 数据仓库方案选型
总体框架通常采用三层体系结构:前端工具(顶层)-OLAP服务器(中间层)-数据仓库服务器(底层)。底层的数据仓库服务器通常是一个关系数据库系统(各种表关联的sql统计会更方便一些,非关系型数据库目前在这方面还是有所区别)。 中间层OLAP服务器,典型实现为ROLAP模型或MOLAP模型。 顶层为前端客户端,用于数据分析和挖掘等(如趋势分析、预测)。 当然现在很多成熟的BI工具都是集成了OLAP
2017-11-07 10:43:20 26031
转载 唯品会海量实时OLAP分析技术升级之路
讲师介绍谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。 海量数据实时OLAP场景的困境大数据首先来看一下我们在最初几年遇到的问题。第一就是大数据,听起来好像蛮无聊的,但大数据到底是指什么呢?最主要的问题就是...
2017-11-03 15:20:28 3584
转载 阿里云大数据三次技术突围:Greenplum、Hadoop和飞天
对于企业来说,到底什么是云计算?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起点再审视云计算的发展路径,可以发现,经过十余年的发展演进,云计算有三条发展路径,并且最终沉淀下来了三种落地形态。 第一条路:源自于谷歌对大规模数据的处理,谷歌为全球的互联网用户提供同一个服...
2017-11-03 14:26:21 11137
原创 遇到的问题---MongoDB的java驱动的坑---启用副本集后id的update无效
情况我们有文档如下: { “_id”: ObjectId(‘59f189e9861afe7aa6d684b0’), “mobile”: “12345678”, “reason”: 18, “createOper”: “zhangzequan”, “createDate”: ISODate(‘2017-10-26T07:08:25.669Z...
2017-11-02 14:06:00 1890
ssh框架搭建用到的包完整版.zip
2014-07-03
java通过class读写excel的例子
2014-07-01
整合spring和mongodb用到的包和配置文件
2014-01-21
springMVCHibernateShiroBootStrap框架
2017-11-16
cxselect选择城市
2017-09-13
ueditor1.4.3的jsp版utf-8
2017-07-03
bootstrap-fileinput-master.zip
2017-06-23
SpringMVC+Shiro+MongoDB+BootStrap基础框架
2017-05-16
SpringMVC+Shiro+MongoDB基础框架
2017-05-15
hadoop-eclipse-plugin-1.2.1.jar
2016-09-14
hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结.pdf
2016-06-12
springMVC+maven+hibernate框架
2015-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人