2016年04月_ywendeng

原创深入理解Spring 依赖注入

一、什么是依赖注入　　所谓依赖注入通常是指在运行期，由spring容器动态地将依赖对象注入到应用中。当spring容器启动后，spring容器初始化，创建并管理bean对象，以及销毁它。应用本身是不负责依赖对象的创建及维护，依赖对象的创建及维护是由外部容器负责的。这样控制权就由应用转移到了spring容器，控制权的转移就是所谓的反转。所以，我们常常看到 IOC（Inverse of Control）

2016-04-30 17:23:12 2776

原创详解数据库中的事务、隔离级别、并发控制

一、什么是事务（Transaction）？　　事务就是一组原子性的SQL查询，或者说一个独立的工作单元。下面我们通过一个银行用户之间的转账这个经典的例子来理解事务。假设一个银行的数据库中有两张表：支票（checking）表和储蓄表。现在要从用户Jane的支票账户转移200美元到他的储蓄账户，那么至少需要三个步骤： 1、检查支票账户的余额是否大于200美元 2、从支票账户余额

2016-04-29 17:04:31 781

原创 Hive高级操作总结（一）

一、视图的创建、查看、删除二、索引的创建三、hive中的分区操作四、桶操作

2016-04-28 21:41:17 1912

原创 ThreadLocal类源码解析

一、什么是ThreadLocal　　该类提供了线程局部 (thread-local) 变量。这种变量在多线程环境下访问(通过get或set方法访问)时能保证各个线程里的变量相对独立于其他线程内的变量。ThreadLocal 实例通常是类中的 private static 字段，它们希望将状态与某一个线程（例如，用户 ID 或事务 ID）相关联。例如，以下类生成对每个线程唯一的局部标识符。线程 ID

2016-04-26 22:27:27 345

原创 hadoop 中常见的异常与解决办法

ssh: Could not resolve hostname library: Temporary failure in name resolution put: ._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) runing and no node(s)

2016-04-26 17:08:56 1207

原创 hadoop分布式集群部署步骤总结

一、理论基础( 一) 　HA 概念以及作用　　HA(High Available), 高可用性群集，是保证业务连续性的有效解决方案，一般有两个或两个以上的节点，且分为活动节点及备用节点。通常把正在执行业务的称为活动节点，而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题，导致正在运行的业务（任务）不能正常运行时，备用节点此时就会侦测到，并立即接续活动节点来执行业务。从而实现业务的不中断

2016-04-25 21:05:17 16942

原创 Hive数据类型及常用操作总结(一)

sort by 不受 hive.mapred.mode 的值是否为 strict 和 nostrict 的影响。sort by 的数据只能保证在同一个 Reduce 中的数据可以按指定字段排序；DISTRIBUTE BY 排序查询按照指定的字段对数据划分到不同的输出 Reduce 文件中；CLUSTER BY 查询 cluster by 除了具有 distribute by 的功能外还兼

2016-04-24 09:20:42 13560

原创 Linux总结（八）：yum与rpm 命令详解

一、yum常用命令创建本地yum 仓库的步骤二、rpm常用命令三、yum与rpm命令的区别

2016-04-23 14:30:19 869

原创详解Hive的架构、工作原理及安装步骤

一、Hive是什么？　　 Hive 是基于 Hadoop 构建的一套数据仓库分析系统，它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行，通过自己的 SQL 去查询分析需要的内容，这套 SQL 简称 Hive SQL。　　二

2016-04-23 10:24:17 13282

原创深入理解Yarn的架构及作业调度机制

一、YARN 架构由什么组成？首先我们来看看 YARN 的架构图，如下图所示。从 YARN 的架构图来看，它主要由ResourceManager、NodeManager、ApplicationMaster和Container等以下几个组件构成。 1、 ResourceManager（RM）　　YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序

2016-04-22 20:50:45 3930 2

原创 MongoDB总结（三）：mongoDB的主从复制、副本集、分布式部署

主从复制　　主从复制是MongoDB最常用的复制方式。这种方式非常灵活，可用于备份、故障恢复、读扩展等。　　MongoDB的复制至少需要两个服务器或者节点。其中一个是主节点，负责处理客户端请求，其它的都是从节点，负责映射主节点的数据。主节点记录在其上执行的所有操作。从节点定期轮询主节点获得这些操作，然后对自己的数据副本执行这些操作。由于和主节点执行了相同的操作，从节点就能保持与主节点的数据同步。

2016-04-22 19:15:07 1704

原创深入理解ZooKeeper基本原理及安装部署

**1. ZooKeeper 是什么** ZooKeeper 是一个针对大型分布式系统的可靠协调系统；它提供的功能包括：配置维护、名字服务、分布式同步、组服务等；它的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。**2. ZooKeeper特点**ZooKeeper 主要包含以下几个特点：1)、最终一致性：为客户端展示同一视图，这是 ZooKeeper

2016-04-21 16:09:21 9759

原创 MongoDB总结（二）：mongoDB的索引、备份和恢复、固定集合及数据库安全

在使用mongodump -h dbhost -d dbname -o dbdirectory 进行数据备份时出现以下错误：Wed Apr 20 21:58:00.481 JavaScript execution failed: SyntaxError: Unexpected identifier

2016-04-20 23:30:39 1542

原创 MapReduce编程模型及优化技巧

（一）MapReduce 编程模型（如果你已经了解请直接进入第二部分MapReduce 的优化讲解）　在学习MapReduce 优化之前我们先来了解一下MapReduce 编程模型是怎样的？　下图中红色的标注表示没有加入Combiner和Partitioner来进行优化。　上图的流程大概分为以下几步。　　第一步：假设一个文件有三行英文单词作为 MapReduce 的Input（输入

2016-04-20 18:57:07 7317

原创深入理解MapReduce的架构及原理

MapReduce 定义　　Hadoop 中的 MapReduce是一个使用简单的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错式并行处理TB级别的数据集MapReduce 特点　　 MapReduce 为什么如此受欢迎？尤其现在互联网+时代，互联网+公司都在使用 MapReduce。MapReduce 之所以如此受欢迎，它主要有以下几个特点

2016-04-20 15:43:59 13151 2

原创 MongoDB总结（一）：MongoDB 的安装和常用操作

MongDB的简介 MongoDB是用C++语言编写的非关系型数据库。特点是高性能、易部署、易使用，存储数据十分方便。MongDB的安装 MongoDB 的下载地址：http://www.mongodb.org/downloads 在官网下载适合自己操作系统版本将MongoDB 解压到任意目录下，例如：D:\Application Software\mongodb-win32-i386-2

2016-04-20 11:47:37 672

原创 hadoop 中实现一次将多文件上传至HDFS

需求场景分析　　在某个单一操作中处理一系列文件是很常见的。例如一个日志处理的MapReduce作业可能要分析一个月的日志量。如果一个文件一个文件或者一个目录一个目录的声明那就太麻烦了，我们可以使用通配符(wild card)来匹配多个文件（这个操作也叫做globbing）。为了实现上面的需求，需要先掌握如下的知识点　　2.1　Hadoop提供了两种方法来处理文件组： public F

2016-04-16 20:49:22 4600

原创深入理解HDFS 的架构和原理

(一) HDFS主要是用于做什么的？ HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（

2016-04-15 19:55:09 8336

原创 hadoop 中NameNode和SecondaryNameNode的工作原理

什么是NameNode? NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。文件包括：fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。edits:操作日志文件。fstime:保存最近一次checkpoint的时间SecondaryNameNode的主要作用？

2016-04-14 22:48:27 2028

原创线程安全（一）：多线程竞态条件导致的线程不安全

引用块内容什么是线程安全？当多个线程访问某个类时，不管运行时环境采用何种调度方式或者这些线程将如何交替执行，并且在主调代码中不需要任何额外的同步或协同，这个类都能表现出正确的行为，那么这个类就是线程安全的。状态变量出现线程不安全的解决办法？ ① 在访问状态变量时使用同步 ②将状态变量修改为不可变的变的变量 ③不在线程之间共享该变量竞态条件的产生

2016-04-13 19:04:22 963

JimGray的博客