基础学习
KeepLearningBigData
Apache CarbonDarta PMC;
Apache Spark、Alluxio、KubeRay、SparkBWA等项目的contributor
展开
-
基础知识学习1之哈希(Hash)
1.理解1.1 基本概念理解哈希, Hash的音译,也有翻译做“散列”。 可以理解为映射的一种。T[hash[x]]=x, 通过hash函数将值x转换成T对应的下标,然后将值写到该位置. 比如除法hash: 10%9取余1,将10存在T[1].hash平均时间要比链表快,同时可以节省比数组更少的空间。 假设关键字集合为K,关键字域为U,空间可以将至O(|K|).hash使用的场景是数的集合比数的原创 2017-01-15 21:10:33 · 971 阅读 · 0 评论 -
使用阿里云E-MapReduce遇到的那些坑
由于需要做实验来验证自己系统的scalability,实验室机器数又不够,所以选择用商业服务器来完成实验。 在AWS和阿里云之间选择了阿里云。在完成试验后对实验过程中遇到的那些坑进行了总结。 自己的实验主要是做一个分布式序列比对系统(DSA: Distributed Sequence Alignment System),测试其中相关算法的scalability 由于是要测性能,所以选择了独享原创 2017-01-24 08:13:53 · 7462 阅读 · 0 评论 -
集群部署和配置工具Mark
最近在跟蚂蚁金服的工程师聊的时候,突然想起一个问题,特地请教了下。如果有上千台服务器,如何快速的部署?包括系统和软件。如果一个一个系统安装操作系统,肯定很麻烦,而且耗时。之前也问过一些朋友,但都没得到好的回答。望玄师兄介绍了两个工具ansible和puppet。Mark下。大概查了下,没花太多时间。ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfe原创 2017-02-08 20:37:24 · 1204 阅读 · 0 评论 -
Ubuntu下解决IDEA与Maven的配置问题:Dmaven.multiModuleProjectDirectory system property is not set
1 问题描述当在ubuntu下使用IDEA 13.0 maven3.3.9的时候mvn package出现问题/usr/lib/jvm/java-7-openjdk-amd64/bin/java -Dmaven.home=/home/xubo/cloud/apache-maven-3.3.9 -Dclassworlds.conf=/home/xubo/cloud/apache-maven-3.3.9原创 2017-01-22 21:06:31 · 2264 阅读 · 2 评论 -
集群节点间数据分发dispath.sh
!/usr/bin/env bashif [ $# -ne 1 ]; then echo “Usage: dispath.sh filename” exit 1 ficur_dir=(cd"(cd"(cd "(dirname “$1”)”; pwd) for dst in {1..50} doscp -r $1 emr-worker-$dst:$cur_di...原创 2018-06-06 12:07:52 · 927 阅读 · 0 评论