2013年12月_追寻北极

12月

原创软件方法摘录

================以下是摘抄=========================前置问题：利润 = 需求 - 设计。需求：从卖的视角、具体的实际问题来考虑，将产品当做项目来做一步一步来走。设计：从做的角度、抽象的问题模型来考虑，将项目当做产品来做尽力做出彩。综述：设计源于需求而又高于需求。需求规约（如何考虑）：

2013-12-31 15:00:41 849

转载 hadoop简介

一.hadoop，一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throug

2013-12-30 17:26:30 650

转载解读HDFS

是蛮久木有写过关于hadoop的博客了额，虽然最近也看了一些关于linux的基础知识，但似乎把这个东西忘记了，其实时不时回顾一下以前的知识还是蛮有意思的，且行且忆！我们Hadoop 主要由HDFS和MapReduce 引擎两部分组成。最底部是HDFS，它存储Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是MapReduce 引擎，该引擎由JobTrackers 和TaskT

2013-12-30 11:35:57 639

原创 Hadoop相关概念整理

1，Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架。Hadoop目标是支持大的数据文件并且是以顺序读为主，以文件的读的吞吐量为目标，并结合与Mapreduce框架紧密结合2，Hadoop由 HDFS MapReduce Hbase Hive和Zookeeper组成，其中HDFS和ZooKeeper最重要成员。3，Hadoop的优点：扩容能力成本低高效率可靠

2013-12-27 17:46:32 842

转载 HBase Java简单示例

Hbase采用Java实现，原生客户端也是Java实现，其他语言需要通过thritf接口服务间接访问Hbase的数据。Hbase作为大数据存储数据库，其写能力非常强，加上Hbase本身就脱胎于Hadoop故和Hadoop的兼容性极好，非常适合于存储半规则数据(灵活、可扩展性强、大数据存储)。基于Hadoop的mapreduce + Hbase存储，非常适合处理大数据。Hbase基本使用示例

2013-12-27 17:15:01 1049

转载 Pig Hive对比

Pig Latin：数据流编程语言一个Pig Latin程序是相对于输入的一步步操作。其中每一步都是对数据的一个简单的变换。用Pig Latin编程更像在RDBMS中“查询规划器”（query planner）这一层对数据进行操作，查询规划器决定了如何将描述型语句转化为一系列系统化执行的步骤。Pig对它所处理的数据要求则宽松得多；可以在运行时定义模式，而且这是可选的。本质上，Pig可以

2013-12-27 17:11:04 788

原创 Hive与HBase区别

Hive与HBase区别 Hive是为简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要Hive这样的用户编程接口。Hive本身不存储和计算数据，它完全依赖於HDFS和MapReduce，Hive中的表纯逻辑表，就是些表的定义等，也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟

2013-12-27 17:06:40 740

转载 Hive基础入门-架构(转载)

Hive基础入门-架构总体架构图如下：细分如下： 1：Hive的接口A: HWI./hive --service hwi[root@pg2 bin]# ./hive --service hwi13/01/06 23:56:38 INFO hwi.HWIServer: HWI is starting up13/01/06 23:56:38 WARN con

2013-12-27 16:50:54 997

转载 pig简单应用（转载）

我这里以Mysql 5.1.x为例,Pig的版本是0.8 同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下: tmp_file_1:Txt代码 zhangsan 23 1 lisi 24 1 wangmazi 30 1 meinv 18 0 dam

2013-12-27 16:36:15 642

原创 HDFS简单介绍汇总

1，hadoop是什么Hadoop：一个分布式系统的基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力告诉运算和存储Distributed：分布式计算是利用互联网上的计算机cpu的共同处理能力来解决大型计算的问题的一种计算科学file system：文件系统是操作系统用于明确磁盘或分区上的文件的方法和数据结构，即在磁盘上组织文件的方法2，hadoo

2013-12-27 10:40:25 790

原创 mongodb文摘汇总

以下个人觉得不错，分享下，先 http://blog.csdn.net/zhangzhaokun/article/details/6295686http://blog.csdn.net/zhangzhaokun/article/details/6287309

2013-12-26 15:50:59 674

原创非结构化数据介绍

相对于结构化数据（即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据）而言，不方便用数据库二维逻辑表来表现的数据即称为非结构化数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合处理非

2013-12-26 15:34:15 2002

转载 MongoDB 的 GridFS 详细分析转载

GridFS简介GridFS是MongoDB中的一个内置功能，可以用于存放大量小文件。http://www.mongodb.org/display/DOCS/GridFShttp://www.mongodb.org/display/DOCS/GridFS+SpecificationGridFS使用MongoDB提供了一个命令行工具mongofiles可以来处理GridFS，在b

2013-12-26 15:22:43 737

原创 mapreduce概念介绍

MapReduceMapReduce是一种计算模型，简单的说就是将大批量的工作（数据）分解（MAP）执行，然后再将结果合并成最终结果（REDUCE）。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。对科班出生的程序员来说，最好的例子莫过于归并排序的例子，没错，归并排序流程就可以看作是一个MapReduce，只是我们在学校写过的归并排序程序可能还没有涉及到

2013-12-26 15:02:20 927

转载用MongoDB实现MapReduce（翻译）

MapReduce 是 Google 在 2004 年发布的一个软件框架，用于支持大规模数据的分布式计算，详情请看这里。MongoDB 是一个开源的面向文档的 NoSQL 数据库系统，使用 C++ 编写，详情请看这里。1. 安装 MangoDB首先请按照官方这个文档安装 MongoDB 数据库，在本文中，我们是在 Mac OS X 下安装并测试无误。我使用 sudo port in

2013-12-26 14:49:31 827

原创 mongodb功能简介

1，nosql数据库是什么非关系型数据库，主要用于社区web2.0网站主要解决：a，对数据库高并发的需求b，对海量数据的高效存储和访问需求c，对数据库高可用性和高扩展性的需求2,CAP理论一致性C 可用性A 分区容忍性P一个分布式系统最多满足两个CA传统数据库AP key-value数据库因此mongodb不能解决a，数据库事物一致性要求b，数据

2013-12-26 10:58:56 751

原创 mongodb简单介绍以及使用整理2

分片服务角色介绍1，客户端访问路由节点mongos来进行数据读写。config服务器保存了两个映射关系，一个是key值的区间对应哪一个chunk的映射关系，另一个是chunk存在哪一个分片节点的映射关系。路由节点通过config服务器获取数据信息，通过这些信息，找到真正存放数据的分片节点进行对应操作。2，路由节点还会在写操作时判断当前chunk是否超出限定大小，如果超出，就分列

2013-12-26 10:04:31 614

原创 mongodb简单介绍以及使用整理1

mongodb介绍：1，Mongodb一个基于分布式文件存储的数据库，由c++编写，旨在为web应用提供可扩展的高性能的存储解决方案2，一个介于关系数据库和非关系数据库之间的产品，是非关系型数据库中功能最丰富，最像关系数据库的产品3，它支持的数据结构非常松散，是类似json的 bson格式，因此可以存储比较复杂的数据类型4，支持的查询语言强大，语法类似面向对象的查询语言，几乎可以支

2013-12-23 17:10:24 728

原创大交易数据简单介绍汇总

大交易数据(企业) 大交互数据(SNS)nosql需求背景高并发读写海量数据的高效存储和访问高扩展高可用大数据特征1，数据量巨大,2，数据多样性,3，数据实时性高扩展性和高可用性关系数据库存在的问题：1，面对高并发的读写需求，数据库压力巨大，硬盘IO无法承受2，面对海量的数据，数据库存储记录数有限，sql查询效率低下3，横向扩展艰难，无法通过快速增加服务

2013-12-23 16:13:39 1123

原创 java包的设计原则整理总结

前3个原则关注包的内聚性，这些原则能够指导我们如何把类划分到包中。后3个原则关注包的耦合性，这些原则帮助我们确定包之间的相互关系。包的内聚性原则--粒度1,重用发布等价原则一个包的重用粒度（granule of reuse）可以和发布粒度（granule of release）一样大。我们说重用的任何东西都必须同时被发布和跟踪a,由于重用性必须是基于包的，所以可重用的包必须包含可重

2013-12-20 16:46:59 2304

原创类的设计原则总结整理

a,单一职责原则我们把职责定义为“变化的原因”。如果你能够想到多于一个动机去改变一个类，那么这个类就具有多于一个的职责l,Rectangle类具有两个方法，一个方法把矩形绘制在屏幕上，另一个方法计算矩形面积,这个设计违反了SRP。Rectangle类具有两个职责。第一个职责提供了矩形几何形状数学模型；第二个职责是把矩形在一个图形用户界面上绘制出来2,软件设计真正要做到的许多内容，就是发

2013-12-20 11:19:18 852

原创软件设计通用原则整理

软件设计通用原则其中1－5的原则关注所有软件实体（类、模块、函数等）的结构和耦合性，这些原则能够指导我们设计软件实体和确定软件实体的相互关系1，单一职责2，开放封闭原则3，liskov替换原则原则4，依赖倒置5，接口隔离 6－8的原则关注包的内聚性，这些原则能够指导我们对类组包6，重用发布等价7，共同重用原则8，共同封闭原则 9－11的原

2013-12-19 15:27:09 1789

原创 API设计的注意事项和流程

1，好学好记2，看了就知道干啥（以名释义）3，不用容易记错4，容易扩展5，有完整性API设计流程a,仔细研究需求b,设计之前先写用例c,研究同一类库中类似的API设计d,先设计，后实现e,找人帮你评测APIf,多写几个例子程序g,做好扩展的准备h,内部API没评测之前不要发布宁缺毋滥API设计原则1,命名名字要能解释自己，

2013-12-19 15:05:21 1093

转载 Berlin: Web API设计原则

1，不要考虑端点2，不要在API中包里领域模型3，目的明确之后再设计API3，不要孤独使用GET PUT4，不要将错误码选择限制为200和5005，不要忽略缓存6，不需要版本7，不要对内容协议进行扩展http://www.infoq.com/cn/news/2013/10/gotober-do-dont-webapi

2013-12-19 14:34:37 827

原创 JAVA api设计的一些原则

1，将api与其实现置于不同的包中2，将api放入高层包中，实现可以放在底层包中3，考虑将大型api拆分成若干个小包4，考虑将api与其实现包归置到不同的java文档中5，避免api与实现类内部依赖6，避免不必要的api碎片7，不要将公共实现类放在api包中8，不要在调用和实现类之间创建依赖9，不要将不相关的api放在同一个包中10，不要将api与spi（服务提

2013-12-19 11:29:49 1250