2017年06月_XiaoGuang-Xu

转载 HBase之表空间

HBase之表空间http://www.cnblogs.com/similarface/p/5821224.html1、介绍在HBase中，namespace命名空间指对一组表的逻辑分组，类似RDBMS中的database，方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namesp

2017-06-30 18:04:58 919

转载深刻理解HDFS工作机制

深刻理解HDFS工作机制 http://www.cnblogs.com/wxisme/p/6270860.html　深入理解一个技术的工作机制是灵活运用和快速解决问题的根本方法，也是唯一途径。对于HDFS来说除了要明白它的应用场景和用法以及通用分布式架构之外更重要的是理解关键步骤的原理和实现细节。在看这篇博文之前需要对HDFS以及分布式系统有一些了解。请参考这篇博客。

2017-06-29 12:42:15 325

转载 [一起学Hive]之十-Hive中Join的原理和机制

[一起学Hive]之十-Hive中Join的原理和机制转载： http://lxw1234.com/archives/2015/06/313.htm九、Hive中Join的原理和机制笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。

2017-06-29 10:35:27 340

转载 HIVE MapJoin异常问题处理总结

HIVE MapJoin异常问题处理总结转转： https://yq.aliyun.com/articles/64306问题描述在跑hive作业的时候，偶尔会遇到下面的异常 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask 。

2017-06-29 10:31:03 3716 1

转载 HashMap实现原理及源码分析

HashMap实现原理及源码分析　　哈希表（hash table）也叫散列表，是一种非常重要的数据结构，应用场景及其丰富，许多缓存技术（比如memcached）的核心其实就是在内存中维护一张大的哈希表，而HashMap的实现原理也常常出现在各类的面试题中，重要性可见一斑。本文会对java集合框架中的对应实现HashMap的实现原理进行讲解，然后会对JDK7的HashMap源码进

2017-06-22 22:21:04 293

转载 [Spark] - HashPartitioner & RangePartitioner 区别

[Spark] - HashPartitioner & RangePartitioner 区别转载： http://www.cnblogs.com/liuming1992/p/6377540.htmlSpark RDD的宽依赖中存在Shuffle过程，Spark的Shuffle过程同MapReduce，也依赖于Partitioner数据分区器，Partition

2017-06-22 10:14:32 333

转载 Spark源码分析之分区器的作用

转载：http://www.cnblogs.com/xing901022/archive/2017/04/16/6718642.htmlSpark源码分析之分区器的作用最近因为手抖，在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题，顺便研究了下Spark分区器的原理，趁着周末加班总结一下~先说说数据倾斜数据倾斜是指Spark中的

2017-06-22 10:08:21 287

转载 Spark 任务运行原理

调优概述在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种

2017-06-21 13:58:52 276

转载深入HBase架构解析

前记公司内部使用的是MapR版本的Hadoop生态系统，因而从MapR的官网看到了这篇文文章：An In-Depth Look at the HBase Architecture，原本想翻译全文，然而如果翻译就需要各种咬文嚼字，太麻烦，因而本文大部分使用了自己的语言，并且加入了其他资源的参考理解以及本人自己读源码时对其的理解，属于半翻译、半原创吧。HBase架构组成HBase采

2017-06-19 14:16:54 359

转载数据挖掘系列（5）分类算法评价

一、引言　　分类算法有很多，不同分类算法又用很多不同的变种。不同的分类算法有不同的特定，在不同的数据集上表现的效果也不同，我们需要根据特定的任务进行算法的选择，如何选择分类，如何评价一个分类算法的好坏，前面关于决策树的介绍，我们主要用的正确率（accuracy）来评价分类算法。　　正确率确实是一个很好很直观的评价指标，但是有时候正确率高并不能代表一个算法就好。比如某个地区某天地震的

2017-06-15 16:49:08 413

转载数据挖掘系列（4）决策树分类算法

从这篇开始，我将介绍分类问题，主要介绍决策树算法、朴素贝叶斯、支持向量机、BP神经网络、懒惰学习算法、随机森林与自适应增强算法、分类模型选择和结果评价。总共7篇，欢迎关注和交流。　　这篇先介绍分类问题的一些基本知识，然后主要讲述决策树算法的原理、实现，最后利用决策树算法做一个泰坦尼克号船员生存预测应用。一、分类基本介绍　　物以类聚，人以群分，分类问题只古以来就出现我们的生活

2017-06-15 16:27:34 985

转载数据挖掘系列（3）--关联规则评价

数据挖掘系列（3）--关联规则评价前面我们讨论的关联规则都是用支持度和自信度来评价的，如果一个规则的自信度高，我们就说它是一条强规则，但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。一个误导我们的强规则看这样一个例子，我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联关系。交易数据集共有10,000条记录，其中购买

2017-06-15 16:21:40 649

转载数据挖掘系列（2）--关联规则FpGrowth算法

数据挖掘系列（2）--关联规则FpGrowth算法上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法，Aprori算法利用频繁集的两个特性，过滤了很多无关的集合，效率提高不少，但是我们发现Apriori算法是一个候选消除算法，每一次消除都需要扫描一次所有数据记录，造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集，效率比Aprori算法高很多。

2017-06-15 15:56:12 684

转载 SVM算法原理

SVM算法原理原文：http://blog.csdn.net/u012581541/article/details/51181041简介支持向量机（support vector machines）是一个二分类的分类模型（或者叫做分类器）。如图：它分类的思想是，给定给一个包含正例和反例的样本集合，svm的目的是寻找一个超平面来对样本根据正例

2017-06-15 14:26:13 920

转载 HBase原理－数据读取流程解析

HBase原理－数据读取流程解析和写流程相比，Hbase读数据是一个更加复杂的操作流程，这主要基于两个方面的原因：其一是因为整个hbase存储引擎基于LSM-Like树实现，因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件；其二是因为HBase中更新操作以及删除操作实现都很简单，更新操作并没有更新原有数据，而是使用时间戳属性实现了多版本。删除操作也并没有真正删除原有数据

2017-06-15 12:26:14 541

转载 HBase －数据写入流程解析

HBase －数据写入流程解析众所周知，Hbase默认适用于写多读少的应用，正是依赖于它相当出色的写入性能：一个100台RS的集群可以轻松地支撑每天10T的写入量。当然，为了支持更高吞吐量的写入，hbase还在不断地进行优化和修正，这篇文章结合0.98版本的源码全面地分析HBase的写入流程，全文分为三个部分，第一部分介绍客户端的写入流程，第二部分介绍服务器端的写入流程，最后再重点分

2017-06-15 11:21:44 452

转载 HBase最佳实践－写性能优化策略

HBase最佳实践－写性能优化策略上一篇文章主要介绍了Hbase读性能优化的基本套路，本篇文章来说道说道如何诊断hbase写数据的异常问题以及优化写性能。和读相比，HBase写数据流程倒是显得很简单：数据先顺序写入HLog，再写入对应的缓存Memstore，当Memstore中数据大小达到一定阈值（128M）之后，系统会异步将Memstore中数据flush到HDFS形成小

2017-06-15 11:00:54 397

转载 HBase最佳实践－读性能优化策略

HBase最佳实践－读性能优化策略任何系统都会有各种各样的问题，有些是系统本身设计问题，有些却是使用姿势问题。Hbase也一样，在真实生产线上大家或多或少都会遇到很多问题，有些是hbase还需要完善的，有些是我们确实对它了解太少。总结起来，大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大。Full GC问题之前在一些文章

2017-06-15 10:58:15 430

转载 HBase最佳实践－列族设计优化

问题导读：1.BLOCKSIZE属性在不同场景下应该如何设置？2.COMPRESSION属性和DATA_BLOCK_ENCODING属性的区别是什么？3.Hbase需要注意哪些设计原则？随着大数据的越来越普及，HBase也变得越来越流行。会用HBase现在已经变的并不困难，然而，怎么把它用的更好却并不简单。那怎么定义‘用的好’呢？很简单，在保证系统稳

2017-06-15 10:57:10 393

转载 Hbase的TTL字段超时设置测试

Hbase的TTL字段超时设置测试原文： http://blog.csdn.net/wulantian/article/details/41010947在工作中，很多时候需要对表字段进行限定，例如限定一列的超时时间等。今天就总结一下：1. 做Hbase表做更改前，首先要disable 这个表，否则记录会丢失。首先，我们建立一个测试表test，有一个列簇fa

2017-06-15 10:48:15 533

转载逻辑回归

逻辑回归原文： http://blog.csdn.net/pakko/article/details/37878837什么是逻辑回归？Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear model）。这一家族中

2017-06-09 10:50:07 524

转载查看Java对象在内存中的布局

查看java对象在内存中的布局http://yueyemaitian.iteye.com/blog/2034305 接着上篇《一个对象占用多少字节？》中遇到的问题： UseCompressOops开启和关闭，对对象头大小是有影响的，开启压缩，对象头是4+8=12byte；关闭压缩，对象头是8+8=16bytes。这个如何观察验证呢？

2017-06-08 11:54:04 583

转载一个对象占用多少字节？

一个对象占用多少字节？http://yueyemaitian.iteye.com/blog/2033046 老早之前写过一篇博客，是关于一个Integer对象到底占用多少字节的，现在看来，那篇文章竟然计算错了。这次再去计算，是因为之前写的一篇关于字长的文章里，看到了hotspot jvm里，对象占用空间是8字节对齐的，再加上之前关于字节那文章里带着一点

2017-06-08 11:51:25 488

转载一个Java对象到底占用多大内存？

一个Java对象到底占用多大内存？最近在读《深入理解Java虚拟机》，对Java对象的内存布局有了进一步的认识，于是脑子里自然而然就有一个很普通的问题，就是一个Java对象到底占用多大内存？在网上搜到了一篇博客讲的非常好：http://yueyemaitian.iteye.com/blog/2033046，里面提供的这个类也非常实用：import java.

2017-06-08 11:47:21 316

转载 MapReduce On YARN的工作原理

MapReduce On YARN MapReduce计算框架将计算过程分为两个阶段：Map和Reduce　　Map阶段并行处理输入数据；　　Reduce阶段对Map结果进行汇总Shuffle连接Map和Reduce两个阶段　　Map Task将数据写到本地磁盘；　　Reduce Task从每个Map Task上读取一份数据；仅适合离

2017-06-08 10:59:11 803

转载 Spark架构与作业执行流程简介

Spark架构与作业执行流程简介Spark架构与作业执行流程简介Local模式运行Spark最简单的方法是通过Local模式（即伪分布式模式）。运行命令为：./bin/run-example org.apache.spark.examples.SparkPi local基于standalone的Spark架构与作业执行流程

2017-06-08 10:29:37 502

转载几种简单的负载均衡算法及其Java代码实现

什么是负载均衡负载均衡，英文名称为Load Balance，指由多台服务器以对称的方式组成一个服务器集合，每台服务器都具有等价的地位，都可以单独对外提供服务而无须其他服务器的辅助。通过某种负载分担技术，将外部发送来的请求均匀分配到对称结构中的某一台服务器上，而接收到请求的服务器独立地回应客户的请求。负载均衡能够平均分配客户请求到服务器阵列，借此提供快速获取重要数据，解决大量并发访问服务

2017-06-07 13:49:48 454

原创 Hbase服务启动以及shell命令使用遇到的问题

Hbase服务启动以及shell命令使用遇到的问题

2017-06-06 10:55:43 1602

转载 Spark 性能相关参数配置详解

Spark 性能相关参数配置详解（转载： http://www.open-open.com/lib/view/open1453249796636.html）每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们会被分配到executor上面去执行。Stage指的是一组并行运行的task，stage内部是不能

2017-06-05 18:54:06 473

Make progress step by step everyday.....