moxuqiang_dm-CSDN博客

原创图像局部特征抽取

原理我们都知道著名的sift算法以及surf算法，但在当我们需要在海量数据中匹配点时，往往会出现很高的错误的匹配率，而且搜索算法的限制也是不可实用的方案，然而在使用其他图像特征进行搜索是比较可行的，而我们的人的眼睛在观察事物的时候也是有局部性的，使用这一特点，可搜索原图变化的图像，因为一张图，不可能全部地方都会被污染；这时候对图像进行分割是一个很重要的工作，下面就是结合surf算法的特征点来对图像进

2016-01-15 20:39:08 883

原创基于surf特征点的图像局部图像抽取

原理我们都知道著名的sift算法以及surf算法，但在当我们需要在海量数据中匹配点时，往往会出现很高的错误的匹配率，而且搜索算法的限制也是不可实用的方案，然而在使用其他图像特征进行搜索是比较可行的，而我们的人的眼睛在观察事物的时候也是有局部性的，使用这一特点，可搜索原图变化的图像，因为一张图，不可能全部地方都会被污染；这时候对图像进行分割是一个很重要的工作，下面就是结合surf算法的特征点来对图像进

2016-01-15 17:24:48 987

原创分布式高维空间近邻搜索项目开发

项目名称分布式高维空间近邻搜索项目描述目前在互联网上高维空间搜索的算法很多，但性能都不尽人意，比如KD树算法，强调互联网，是指本人能在互联网上搜索到的相关算法，如果某个公司内部有自己研究的算法也可能有不错的性能表现。测试KD树的性能，50维度的数据，100万的数据用了600多毫秒，而且搜索结果与线性搜索的结果相差还很大。鉴于此，我自己研究了一个搜索算法，50维度，200万的数据量，搜索前十个最近邻点

2015-12-15 13:46:21 1692

原创 mapreduce源码结构以及主要过程源码

了解mapreduce任务启动过程想了解mapruduce的源码结构，首先了解yarn的基本结构以及一下mr任务启动的过程，看下图：可以看到整个过程通过job-client来向resourceManager提交作业，然后resourceManager在集群中某台机子启动mr appMaster,再由mr appMaster去启动task，并管理task;为了更方便地管理集群硬件资源，mr app

2015-09-15 18:17:44 771

原创 mapreduce任务中数据分布倾斜导致reduce负载不均衡的解决方案

概述：从所周知，当需求中数据出现分布不均的情况时，按照hadoop mr任务的默认partition方法，会出现某些机子负载过重的情况，这样会拖慢整个任务进度。在这里我介绍一个用随机数解决这个问题的方案，下面是通过代码来模拟map根据partition来分区的情况；package com.mxq.balance;import java.util.Vector;public class UNBalan

2015-09-10 00:41:53 5332

翻译 markdown 语法

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦： Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传 LaTex数学公式 UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-08-23 00:15:55 683

原创 oozie（4.1.0）架构及二次开发流程

oozie架构图从oozie的架构图中，可以看到所有的任务都是通过oozie生成相应的任务客户端，并通过任务客户端来提交相应的任务；对oozie的二次开发都集中在了oozie server那里，其实官网是有自定义例子：http://oozie.apache.org/docs/4.2.0/DG_CustomActionExecutor.html ，但如果了解oozie项目的代码架构有助于二次开

2015-08-21 12:04:35 6700

原创 hive udaf详解

原理UDAF函数，简单地理解就是多行输入一行输出，其实就是一个聚合的过程，但聚合的过程可以在mapreduce任务中的多个地方可以实现，要了解UDAF的过程还需要清楚mapreduce的模型，请看下图详解聚合的过程在上述的图中，可以发生在map阶段，可以发生在local combie阶段，也可以发生在reduce阶段，不同阶段的聚合需要不同的实现函数，在源码里也表现定义抽象类：GenericUDAF

2015-08-10 16:53:29 4860

原创 hadoop mapreduce任务中，map任务数的确定

原理我们知道在创建一个mapreduce任务的时候,需要指定Inputformat的类型，我们就从这里入手了解一个mr任务中，是如何读取数据的，首先来看一个具体的inputformat的子类源码（hadoop2.6版本源码）#segment_1 package org.apache.hadoop.mapreduce.lib.input;import org.apache.hadoop.classif

2015-08-07 14:32:27 1473 2

原创 docker 环境下ambari-2.1.0离线升级hdp2.2.6.0 to hdp2.3.0.0

准备：首先搭建好docker的centos容器环，详见：http://blog.csdn.net/moxuqiang_dm/article/details/47083437 在创建容器的过程当中，最值得注意的是数据卷的挂载，因为hdp的安装文件很大，且容器的根目录默认只分配10G，并且docker容器是存储在根目录下的，这样就会造成宿主根目录不够用的情况；(说明一下我实验用的机器大概配置是I3处理

2015-08-07 13:44:44 1999

原创 ssh key互信shell脚本

脚本说明此脚本的环境为centos , ubuntu下执行可能有问题执行之前请安装expect yum -y install expect 把需要做互信的信息写入passwd.txt里面(非root,系统中需要存在该用户),一行一条记录，格式如下：IP 用户名密码 passwd.txt与sshkey.sh放在同一文件夹下脚本内容 #sshkey.sh #!/bi

2015-07-28 18:13:54 966

翻译 docker固定IP容器构造

docker下构建ambari数据管理平台本文将从安装docker开始计述，直到构建ambari平台，其间读者对某些命令不了解请自行查阅相关文档，大致内容如下：基于Centos7安装docker 创建固定IP的容器构建mysql和http服务安装ambari-sever 和ambari-agent 遗留问题安装docker 基于Centos7安装docker不需要使用

2015-07-27 12:51:14 2142

moxuqiang_dm的博客