翟开顺

生活不止眼前的苟且,还有诗和远方的田野

排序:
默认
按更新时间
按访问量

spark常用RDD算子 汇总(java和scala版本)

spark RDD的算子挺多,有时候如何灵活的使用,该如何用一下子想不起来,这一段时间将spark的算子如何使用的例子给记录了下来,下面是spark RDD 的一些常用算子的使用 这些算子包括有java的,也有scala的语言,由于精力有限,暂时没有python的,以后有空再加上吧 spark...

2017-05-14 20:52:48

阅读数:3916

评论数:1

TeamView13 crack install

个人使用teamview是可以的,商业使用尽量还是买一个,毕竟做软件不容易 TeamView简介 teamview是一款用于远程的工具,相比于QQ等,速度和流畅度简直不能再好,teamView比较良心,普通使用一般是免费的,但是如果比较频繁,会被检测为商业用途,这时候就不能用了,然...

2018-05-11 09:00:25

阅读数:585

评论数:7

yarn mapreduce参数最佳实践

合理设置队列名 mapreduce.job.queuename 设置队列名 map读取时进行小文件整合 mapreduce.input.fileinputformat.split.minsize mapreduce.input.fileinputformat.split.maxsiz...

2018-05-05 12:05:10

阅读数:84

评论数:0

兔子递归公式的本质到联想到的一些道理

兔子递归问题 前几天有个同事考我一个有关兔子递归的题目:题目如下 有一对兔子,生长到第3个月时。开始生第一对兔子,并且以后每月生一对兔子,小兔子生长三个月后,也开始生兔子,问N个月后兔子的总数量. 刚开始我一想,这不就是大一就做过的吗,这个就是经典的斐波拉契啊。于是在草稿纸上画着 ...

2018-03-26 21:21:11

阅读数:57

评论数:0

2017小结和2018年小目标

回顾2017: 技术栈 2018年为止,在大数据的技术树又有所提升,下面是一张目前的技术栈,当然,有的可能已经忘记了,但是也有很多都没写上来。 终于把工作内容当成了兴趣 回顾一年前,我还是认为编程,搞技术并不是真正的兴趣,我只是为了赚钱养活自己和家人就OK了。想着如果我有钱...

2018-02-25 01:00:00

阅读数:203

评论数:1

SPARK_SQL工具 TODO

目的 TODO 功能 配置数据库功能 使用XML来配置数据库表和字段的对应属性 xml文件 应该再提供一个数字,说明是第几个字段 读数据 本地: hdfs结构化数据 hive的数据 json数据 csv hdfs: hdfs结构化数据 hive的数据 jso...

2018-01-31 21:01:40

阅读数:162

评论数:0

Bloom Filter的证明以及如何使用

前言, 原理就不讲了 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通 过比对来判定是否在集合内:链表、树,map等数据结构都是这种思路。但是随着集合中元素数目的增加,我们需要的存储空间越来越大,检索速度也越来越慢(O(n),O(logn))。map速度是o(1...

2018-01-30 23:21:06

阅读数:181

评论数:0

simHash算法

前言: 网上有很多对simHash的算法的讲解,但是大多数的通病是要么讲的太冗余,比如分词讲太多,代码写太多,要么关键点没有讲到,例如针对海量数据,如何利用simHash算法。网上都知道使用抽屉原理,但是要知道这个抽屉原理充分条件而非必要条件。本文主要简单明了讲解一下原理 问题的起源: 设计比...

2018-01-30 22:47:58

阅读数:171

评论数:0

yarn fair-scheduler 公平调度的一个实例

某个集群需求 通过yarn将集群资源设置为A,B两个队列, A队列设置占用资源70%主要用来运行常规的定时任务,B队列设置占用资源30%主要运行临时任务,两个队列间可相互资源共享,假如A队列资源占满,B队列资源比较充裕,A队列可以使用B队列的资源,使总体做到资源利用最大化 采取措施 经过...

2018-01-30 21:42:30

阅读数:279

评论数:0

fluentd+mongodb构建分布式日志收集系统

前言: 和同事合作安装过一次fluentd+mongodb,网上文档较少,走了好多弯路,幸亏同事比较给力,能成功应用,现将安装笔记记录一下 。(这里只安装了一台,分布式也是一样的,使用mongodb集群即可) 一、 mongodb单机安装1.1 下载解压并安装下载mongodb-linux-...

2017-12-27 21:39:15

阅读数:2417

评论数:0

yarn资源管理最佳实践

原文翻译自 https://mapr.com/blog/best-practices-yarn-resource-management/#.Ve5bLdOqoVU 有改动 – 翻译以及记录的目的是对yarn进行合理的资源配置,以及yarn平台出错后的分析这篇文章主要是讨论YARN资源管理的最佳实...

2017-12-16 12:32:14

阅读数:457

评论数:0

Container is running beyond virtual memory limits. Current usage: 611.1 MB of 1 GB physical memory u

hadoop Container [pid=100287,containerID=container_1513249052998_0007_01_000009] is running beyond virtual memory limits. Current usage: 611.1 MB o...

2017-12-16 11:20:35

阅读数:2783

评论数:0

storm分区,并行度笔记- Introducing parallelism in Storm

本文来自Book- 《Storm Blueprints.Patterns》:,个人觉得讲的非常好,就在这做了一个笔记 英语很简单,个人感觉并不需要翻译introducing parallelism in StormRecall from the introduction(间接中提到) that ...

2017-12-01 00:03:44

阅读数:253

评论数:0

storm的第一个例子

Storm的一个简单例子: 本文不涉及到各种细节,只是一个简单的storm程序,用于快速入门例子简介有一个数据源,不断随机发送字符串aa,bb,cc,dd,ee,ff 中选择一个发送给一个程序进行处理。这个程序将这个字符串打印到控制台写道log里面,然后传给下一个程序,下一个程序把这个字符串保...

2017-11-28 23:41:30

阅读数:269

评论数:0

Storm简介

Storm简介是Twitter开源的一个分布式实时计算系统,主要用于数据的实时分析,持续计算,分布式RPC等等。具体简介见google,话不多说 Storm特点: 低延迟:实时计算系统必须要有的 高性能:可以使用普通的服务器建立环境,节约成本。 分布式:适合于分布式计算,适合大数据实时分析,...

2017-11-28 22:34:33

阅读数:211

评论数:0

xmanger登录linux图形桌面

最近经常在本地调试的东西,放在服务器上就运行不了,有时候本地的机器远远没有服务器上的机器强大,这时候想的就是在服务器上装上各种环境,例如eclipse,idea或者其他的环境。这时候,就需要自己能直接使用桌面来进行调试了。 想起之前都是使用ubuntu进行开发,centos自带的桌面系统也是可以支...

2017-11-15 23:31:14

阅读数:620

评论数:0

centos安装screen ubuntu安装screen 编译安装screen

yun安装:yum install screen ubuntu 的 apt-get安装sudo apt-get update sudo apt-get install screen编译安装为什么我需要编译安装,因为我所操作的集群不能连外网 tar.gz 下载地址: https://ftp.g...

2017-11-07 10:49:07

阅读数:1218

评论数:0

zookeeper Curator框架简单使用

Curator框架的目的 Curatot框架使用一,Curator的基本方法,创建连接,Curator创建节点,删除节点,读取和修改数据,异步回调方法,读取子节点方法,判断子节点是否存在,讲上面异步回调的那个线程池的作用,CuratorWatcher,Curator场景应用一,分布式锁功能,分布式...

2017-11-07 10:01:09

阅读数:1975

评论数:1

zookeeper的ACL

什么是ACLACL 叫做Access Control List,ACL(访问控制列表),例如linux中的文件系统中就有ACL,传统的文件系统中,ACL分为两个维度,一个是属组,一个是权限。 子目录/文件默认继承父目录的ACL。而在Zookeeper中,node的ACL是没有继承关系的,是独立控...

2017-11-03 23:47:31

阅读数:300

评论数:0

zookeeper的zkclient的使用简介

前言Zookeeper的原生API,就之前的那一些,用起来还是比较麻烦的,所以,有些工程师对原生的API接口进行了封装,简化了ZK的复杂性。 1. 创建客户端的方法: ZKClient(Arguments) - 参数1:zkServer zookeeper服务器的地址,用”,”分割 - 参数...

2017-11-03 23:40:51

阅读数:3155

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭