2014年07月_pianzif

转载为什么用datastage而不直接用sql

我在用datastage的时候发现有些stage例如join stage,aggregate stage,sort stage等，不就实现了order by ,sum ,连接等sql功能吗，那么我干嘛不在数据源的时候就做好这些事情呢，何必用这些stage呢？例如我搞个odbc stage，自定义 sql select count(1),a from A group by a不就可以了吗

2014-07-31 12:38:40 2647

转载赠与那些斗志昂扬却漫无目的的程序员的建议

本文是html5tricks原创翻译，转载请看清文末的转载要求，谢谢合作！我偶然看到几则讯息，来自于一些漫无目的却斗志昂扬的程序员：Hello，大家好！我刚刚学会Erlang/Haskell/Python语言，现在我急需一个大大的项目来验证我的能力，如果各位有什么好主意，请告诉我哦！或者我热爱Linux和开源，并且非常希望能启动一个项目以回馈社会。有没有

2014-07-30 23:30:06 573

转载备用信用证

备用信用证备用信用证简称SBLC (standby letters of credit) 又称担保信用证，是指不以清偿商品交易的价款为目的，而以贷款融资，或担保债务偿还为目的所开立的信用证。它是集担保、融资、支付及相关服务为一体的多功能金融产品，因其用途广泛及运作灵活，在国际商务中得以普遍应用。但在我国，备用信用证的认知度仍远不及银行保函、商业信用证等传统金融工具。鉴此，认识备用信用

2014-07-30 13:30:08 1036

转载保函

保函(Letter of Guarantee, L/G)又称保证书，是指银行、保险公司、担保公司或个人应申请人的请求，向第三方开立的一种书面信用担保凭证。保证在申请人未能按双方协议履行起责任或义务时，由担保人代其履行一定金额、一定期限范围内的某种支付责任或经济赔偿责任。保函即为保证书，为了方便，一般公司及银行都印有一定格式的保证书。其作用包括凭保函交付货物、凭保函签发清洁提单、凭保函倒签预借

2014-07-30 11:08:08 1044

转载保理业务

保理是指卖方、供应商或出口商与保理商之间存在的一种契约关系。根据该契约，卖方、供应商或出口商将其现在或将来的基于其与买方（债务人）订立的货物销售或服务合同所产生的应收账款转让给保理商，由保理商为其提供贸易融资、销售分户账管理、应收账款的催收、信用风险控制与坏账担保等服务中的至少两项。

2014-07-30 11:04:10 1215

转载对SQL说不！NoSQL的数据库技术革命

【51CTO.com快译自7月6日外电头条】NoSQL组织上个月在旧金山的行动让人闻到了数据库革命的味道，好像一个现代IT业版的波士顿倾茶事件正在策划之中。在NoSQL运动的最新一次聚会中，来自世界各地的150人挤满了CBS Interactive的一间会议室。就像当年波士顿的爱国者为反抗英国重税的行动一样，NoSQL的支持者们从各地涌来，分享他们如何推翻缓慢而昂贵的关系数据库的暴

2014-07-26 23:28:13 810

转载关系数据库的末日是否已经来临

最近，大量新的非关系式数据库如雨后春笋般出现在云里云外。这其中所释放出的一个关键信息是：“如果想获得丰富而随需应变的可伸缩性，你需要一个非关系数据库。”如果这是真的，那么这是不是一个迹象，表明曾经强大的关系式数据库终于在它的盔甲上出现了裂缝？关系数据库的日子是不是到头了？该隐退了？在本文中，我们将检视当前这种在特定情况下摆脱关系数据库的趋势，并分析这对于关系数据库的未来意味着什么。

2014-07-26 23:24:51 1314

转载大数据最具潜力的三大应用领域

今天，大数据似乎成了万灵药，从总统竞选到奥斯卡颁奖、从web安全到灾难预测，正如那句俗语：“当你手里有了锤子，什么都看上去像钉子。”当IT经理成功部署一套Hadoop系统后，任何事看上去都与大数据有关（事实也是如此）。类似的事情在云计算的普及中也出现过，一开始大家认为所有的IT都可以搬到云端，而现实是我们依然需要虚拟化技术和基础设施。对于大数据来说，如果IT经理们初期不能正确选择应用领域，

2014-07-25 17:36:37 3886

目前大数据存储有两种方案可供选择：行存储和列存储。业界对两种存储方案有很多争持，集中焦点是:谁能够更有效地处理海量数据，且兼顾安全、可靠、完整性。从目前发展情况看，关系数据库已经不适应这种巨大的存储量和计算要求，基本是淘汰出局。在已知的几种大数据处理软件中，Hadoop的HBase采用列存储，MongoDB是文档型的行存储，Lexst是二进制型的行存储。在这里，我不讨论这些软件的技术和优缺点，只围

2014-07-25 17:33:21 1217

原创 The syntax of the string representation of a datetime value is incorrect. SQLSTATE=22007

时间的转化在datastage中总是遇到这样的一种错误DB2_Connector_20,0: SQLExecute reported: SQLSTATE = 22007: Native Error Code = -180: Msg = [IBM][CLI Driver][DB2/AIX64] SQL0180N The syntax of the string representation

2014-07-25 14:26:14 20976

转载数据库SQL优化大总结之百万级数据库优化方案

网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量

2014-07-23 23:10:30 658

转载大数据的下一革命——敏捷BI

本着务实的态度，利用较低的成本，通过对大数据进行高速捕获和实时的分析，以获取核心业务和战略决策所需的关键信息，从而提升企业经营管理和战略决策水平，最终创造巨大的商业价值，也许是对大数据价值的最好诠释。在对大数据进行分析的过程中，传统数据挖掘/BI（Business Intelligence）的做法是，IT人员事先根据分析需求来进行建模（以及做二次表或打Cube），提前汇总好数据，业

2014-07-23 13:39:49 1549

转载大数据如何作用于金融领域并创造价值？

以下是知乎数据大牛wang hold的回答：第一，你所说的大数据软件，不太让人明白。至少在行业里少提到大数据软件这个说法，可以说大数据技术架构，也可能说数据挖掘软件。不过我理解，你提的大数据软件应该是围绕大数据分析与应用的一系列工作与系统吧？第二，你提到的金融数据，这个涉及面很广，就我有限的接触来看就有很多，比如基金公司的销售数据，客户持有份额与交易数据，客户接触数据，客户网站浏览

2014-07-23 13:36:36 1278

转载天才即耐性

蒲丰（Buffon）有一次说：天才只不过是更大的耐性而已。此话怎讲？蒲丰是18世纪的法国数学家，他发明了数学史上著名的投针试验，被命名为蒲丰投针试验。后人根据这个原理，做了投针1000次、3000次、5000次的试验，获得圆周率。几千次的投针试验，的确需要耐性，这只是蒲丰的话的最直接解释。引申开来，蒲丰的话可以被理解为：当别人已经无法忍耐而去的时候，天才是那个还在坚持的人。那些天才

2014-07-22 09:33:39 621

原创 hadoop 2.4.1 安装之后本地库问题

昨天为了安装，整到晚上12点左右，勉强安装好了，xia

2014-07-21 23:59:41 3588

原创授信

授信是指商业银行向非金融机构客户直接提供的资金，或者对客户在有关经济活动中可能产生的赔偿、支付责任做出的保证，包括贷款、贸易融资、票据融资、融资租赁、透支、各项垫款等表内业务，以及票据承兑、开出信用证、保函、备用信用证、信用证保兑、债券发行担保、借款担保、有追索权的资产销售、未使用的不可撤销的贷款承诺等表外业务。简单来说，授信是指银行向客户直接提供资金支持，或对客户在有关经济活动中的信用向第三方作

2014-07-16 18:47:16 1633

原创 datastage sequential file 控件的使用

sequential file stage的输入

2014-07-15 10:39:04 2981

转载设计并实现数据仓库ETL过程(IBM讲座)

本文是关于计划、设计和实现基本数据仓库解决方案的系列文章的第 3 部分，将设计和实现仓库 ETL 过程，并了解仓库的性能和安全问题。请多多支持作者作品RKWeb1.1 asp.net开发模板！有效提高asp.net开发效率60%以上的代码框架！类似java的struts+spring+hirbenate下载地址：www.hositech.com简介数据集

2014-07-14 12:56:08 5322

原创 When reading database column DATETIME(fraction=6) into column DATETIME(fraction=0)

在进行datastage开发过程中发现如下错误

2014-07-14 10:47:50 5091 1

原创 hadoop 2.4.1 安装全过程

1：首先下载hadoop安装介质地址：http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.4.1/

2014-07-12 21:30:02 5773

转载大道唯简----存储架构演变之剖析

随着云计算和大数据的发展，传统的基于主机的存储架构已逐渐向网络化、虚拟化、海量云存储发展，从分散走向集中，存储的性能、效率和扩展性、灵活性被企业普遍关注。从更高层次看，存储不仅需要提供数据的管理、数据复制、快照、镜像、迁移等例行性事物，更要能处理数据的灾难恢复、数据一致性、虚拟化融合、弹性计算与资源扩展等工作，这些都依赖于良好的存储架构来满足。结合企业的IT建设，我们可以把存储架

2014-07-10 12:53:24 2651

原创 python 自学总结

本来的自学资源来自http://woodpecker.org.cn/abyteofpython_cn/chinese/

2014-07-08 16:10:57 1263

转载分布式文件系统Hadoop、GoogleFS、RAID介绍

一、Hadoop Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。和MYS

2014-07-08 10:31:20 2297

转载 hadoop学习

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么

2014-07-08 09:49:32 631

原创 hadoop 我的总结

1：hadoop 不过是一种框架，一种编程模型！！通过实现他所给定的编程接口（mapperhe）

2014-07-05 01:02:42 986

转载腾讯大规模Hadoop集群实践 PDF

摘要：TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面，介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。TDW（Tencent distributed Data Warehouse，腾讯分布式数据仓库）基于开源软件Hadoop和Hive进行构建，打破了传统数据仓库不能线性扩展、可控性差的局限，并且根据腾讯数据

2014-07-03 13:36:19 1713

转载 Hadoop JobTracker和TaskTracker

JobTracker和TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：jobclien

2014-07-03 11:36:07 2372

转载 hadoop 环境搭建-- 链接转载

http://www.linuxidc.com/Linux/2014-06/103504.htmhttp://www.linuxidc.com/Linux/2014-05/102533p2.htm

2014-07-03 10:32:55 719

转载 Hadoop集群（第8期）_HDFS初探之旅

相关系列目录：Hadoop集群安装配置系列（目录）http://www.linuxidc.com/Linux/2012-12/76696.htm1、HDFS简介　　HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它

2014-07-03 10:23:04 590

转载 HDFS的副本存放策略

HDFS作为Hadoop中的一个分布式文件系统，而且是专门为它的MapReduce设计，所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外，还必须为MapReduce提供高效的读写性能，那么HDFS是如何做到这些的呢？首先，HDFS将每一个文件的数据进行分块存储，同时每一个数据块又保存有多个副本，这些数据块副本分布在不同的机器节点上，这种数据分块存储+副本的策略是HDFS保证可靠性和性能的

2014-07-03 10:18:24 5021

转载 HDFS Datanode数据存储格式分析

首先在Datanode中，每一个block都对应一个数据存储文件，数据存储文件以_blk开头；同时，每一个block还对应一个元数据文件，元数据文件以.meta结尾（注意：meta file的命名格式如下blokcFileName_generationStamp.meta）。首先将一下我理解的几个概念。在HDFS中有storage的概念，每一个节点对应一个storage。我们可以理解为一个Da

2014-07-03 10:12:29 2339

转载 Hadoop的核心思想

Hadoop包括两大核心，分布式存储系统和分布式计算系统。1.1.1.1. 分布式存储为什么数据需要存储在分布式的系统中哪，难道单一的计算机存储不了吗，难道现在的几个TB的硬盘装不下这些数据吗？事实上，确实装不下。比如，很多的电信通话记录就存储在很多台服务器的很多硬盘中。那么，要处理这么多数据，必须从一台一台服务器分别读取数据和写入数据，太麻烦了！我们希望有一种文件系统，可以管辖很多服

2014-07-03 09:54:09 692

转载使用Node.js + MongoDB实现一个简单的日志分析系统

在最近的项目中，为了便于分析把项目的日志都存成了JSON格式。之前日志直接存在了文件中，而MongoDB适时闯入了我的视线，于是就把log存进了MongoDB中。log只存起来是没有意义的，最关键的是要从日志中发现业务的趋势、系统的性能漏洞等。之前有一个用Java写的分析模块，运行在Tomcat下。实现相当的重量级，添加一个新指标的流程也比较繁琐，而且由于NFS的原因还导致分析失败。一直想改写，最

2014-07-03 08:33:19 1125

转载 hadoop杂记-为什么会有Map-reduce v2 (Yarn)

前言：现在准备计划写一个新的专题，叫做《Hadoop杂记》，里面的文章有深有浅，文章不是按入门-中级-高级的顺序组织的，如果想看看从入门到深入的书，比较推荐《the definitive guide of hadoop》。今天主要想写写关于map-reduce v2(或者叫map-reduce next generation，或者叫YARN)与之前的map-reduce有什么不同。最近在学

2014-07-02 23:55:33 758

转载 Hadoop连载系列之六：数据收集分析系统Chukwa

系列几篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建、Zookeeper集群搭建、HBase分布式部署等。当Hadoop集群的数量达到1000+时，集群自身的信息将会大量增加。Apache开发出一个开源的数据收集和分析系统—Chukwa来处理Hadoop集群的数据。Chukwa有几个非常吸引人的特点：它架构清晰，部署简单；收集的数据类型广泛，具有很强的扩展性；与 Ha

2014-07-02 18:23:59 3490

转载 Hadoop连载系列之五：Hadoop命令行详解

1 Hadoop fs--------------------------------------------------------------------------------该hadoop子命令集执行的根目录是/home目录，本机上为/user/root-------------------------------------------------------------

2014-07-02 18:18:30 908

转载 Hadoop连载系列之四：Hadoop分布式文件系统HDFS

当某个数据集大大小超出单个物理机的存储能力时，我们可以考虑使用集群。管理跨网络机器存储的文件系统叫做分布式文件系统(Distributed FileSystem)。随着多节点的引入，相应的问题也就出现了，例如其中最重要的一个问题就是如何保证在某个节点失败的情况下数据不会丢失。Hadoop中有一个核心子项目HDFS(Hadoop Distributed FileSystem)就是用来管理集群的存

2014-07-02 18:07:53 725

转载 Hadoop连载系列之三：HBase分布式安装

1 概述HBase是基于Hadoop的分布式的、面向列的、可拓展的开源数据库。当需要对大数据进行随机的、实时的读写时使用HBase。属于NoSQL。HBase利用Hadoop/HDFS作为其文件存储系统，利用Hadoop/MapReduce来处理HBase中的海量数据，利用Zookeeper提供分布式协作、分布式同步、配置管理等。HBase的架构：LSM - 解决磁盘随机写问题(顺

2014-07-02 18:04:30 1000

转载 Hadoop连载系列之二：Zookeeper分布式安装

1 概述Zookeeper分布式服务框架是 Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。ZooKeeper本身可以以Standalone模式安装运行，不过它的长处在于通过分布式ZooKeeper集群（一个Leader，多个Follower），基于一定的策略来保证Zo

2014-07-02 18:00:21 639

转载 Hadoop连载系列之一：Hadoop集群搭建

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,支持密集型分布式应用并以Apache2.0许可协议发布。 Hadoop:以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem)和MapReduce（GoogleMapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构 1.H

2014-07-02 17:57:46 1109

无废话DB2备份和恢复-基础篇

空空如也