自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

翟开顺

谦谦君子,卑以自牧

原创 spark常用RDD算子 汇总(java和scala版本)

spark RDD的算子挺多,有时候如何灵活的使用,该如何用一下子想不起来,这一段时间将spark的算子如何使用的例子给记录了下来,下面是spark RDD 的一些常用算子的使用 这些算子包括有java的,也有scala的语言,由于精力有限,暂时没有python的,以后有空再加上吧 spark...

2017-05-14 20:52:48 6706 1

原创 分布式之CAP定理与个人见解

本文是个人见解,或许和网上有稍许不同,应该是我的问题,但我只能这样想,才想得通。如有不对,请批评指正 1. CAP是什么: 分布式系统中,一致性、可用性、分区容忍性最多只可同时满足两个 先介绍CAP分别是什么 Consistency 一致性,通过某个节点的写操作结果对后面通过其它节点的读操作可见...

2019-01-27 23:55:02 125 0

转载 腾讯大数据之 TDW 计算引擎解析——Shuffle

腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作业数达到100多万,已经成为公司最大的离线数据处...

2019-01-07 22:55:43 288 0

原创 MYSQL和SQLSERVER数据导入简单小工具

MYSQL和SQLSERVER数据导入简单工具 1. 简介 项目灵感来源于自己经常会分析一些小文本文件,经常用excel等分析不太方便,所以做了这个工具。能将文件简单导入到mysql,sqlserver的工具,目前支持文件,文件夹,hdfs文件,文件夹,以后会支持excel等文件,导入的 字段名称...

2018-12-27 21:48:51 604 0

原创 jdbc大批量数据导入mysql和sqlserver,最快速方法

1. mysql大批量导入: 使用load的方法最快, 但是我们知道,load只能load文件,但是如果我们想load内存里面的一些数据怎么办呢,可以参考这篇文章 https://blog.csdn.net/seven_3306/article/details/9237495 不写文件,同时LOA...

2018-12-27 21:44:34 819 0

原创 java线上程序排错经验5 -linux及其集群环境的分析

top命令查看整体情况 top命令和灵活,具体可自行搜索 查看内存 free -m 分析系统内存,看是否足够程序运行 磁盘占用情况 3.1. 查看文件夹中各文件(夹)的大小 举例 du -h --max-depth=1 /home/u...

2018-09-16 01:50:29 240 0

原创 java线上程序排错经验4 -Btrace了解一下

简介 在生产环境中经常遇到格式各样的问题,如OOM或者莫名其妙的进程死掉。一般情况下是通过修改程序,添加打印日志;然后重新发布程序来完成。然而,这不仅麻烦,而且带来很多不可控的因素。有没有一种方式,在不修改原有运行程序的情况下获取运行时的数据信息呢?如方法参数、返回值、全局变量、堆栈信息等。...

2018-09-16 01:47:45 656 2

原创 java线上程序排错经验3 - jvm内存分析

前言 堆分析工具很多,这里只介绍一种分析的方法,也是最原始的一种,以后会在这篇文字里面慢慢补充 1. 先得到堆 1.1 jmap得到堆 直接jmap查看使用方法 ubuntu@VM-0-12-ubuntu:~$ jmap Usage: ...

2018-09-16 01:42:04 619 0

原创 java线上程序排错经验2 - 线程堆栈分析

1.前言 在线上的程序中,我们可能经常会碰到程序卡死或者执行很慢的情况,这时候我们希望知道是代码哪里的问题,我们或许迫切希望得到代码运行到哪里了,是哪一步很慢,是否是进入了死循环,或者是否哪一段代码有问题导致程序很慢,或者出现了线程不安全的情况,或者是某些连接数或者打开文件数太多等问题,总之我们...

2018-09-16 01:35:07 2367 0

转载 java程序线上排错经验1- 了解JVM相关知识

原文: https://github.com/CyC2018/CS-Notes/blob/master/notes/Java%20%E8%99%9A%E6%8B%9F%E6%9C%BA.md 本文主要参考与《深入理解java虚拟机》 * 一、运行时数据区域 * 程序计数器 ...

2018-09-01 23:39:57 205 0

原创 mapreduce的map阶段中某几个task非常慢的一次排错过程与总结

发现问题: 在家里的测试集群测试数据,发现如下问题: 程序map阶段很慢,然后通过hadoop的集群界面,几乎大多数的task都是在几分钟就执行完,看到有几个task非常慢,执行了4个多小时还不到一半。 分析原因 要么数据和代码问题,要么测试集群问题 初步查看测试集群问...

2018-08-03 09:59:40 2262 1

转载 yarn基本组成架构与工作流程简介

之前记录的笔记,摘抄自哪里忘记了。 二.YARN基本组成结构 YARN 总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为 Slave,ResourceManager负责对各个NodeManager上的资源...

2018-07-26 10:20:28 457 0

原创 maven打jar包几种方式

https://blog.csdn.net/puhaiyang/article/details/78380550 指定打的jar包使用的jdk版本 <plugin> &am...

2018-07-25 10:58:00 13321 0

原创 某远程工具 crack install

个人使用teamview是可以的,商业使用尽量还是买一个,毕竟做软件不容易 TeamView简介 teamview是一款用于远程的工具,相比于QQ等,速度和流畅度简直不能再好,teamView比较良心,普通使用一般是免费的,但是如果比较频繁,会被检测为商业用途,这时候就不能用了,然...

2018-05-11 09:00:25 4056 11

原创 yarn mapreduce或者hive参数最佳实践

合理设置队列名 mapreduce.job.queuename 设置队列名 map读取时进行小文件整合 mapreduce.input.fileinputformat.split.minsize mapreduce.input.fileinputformat.spl...

2018-05-05 12:05:10 1909 0

原创 兔子递归公式的本质到联想到的一些道理

兔子递归问题 前几天有个同事考我一个有关兔子递归的题目:题目如下 有一对兔子,生长到第3个月时。开始生第一对兔子,并且以后每月生一对兔子,小兔子生长三个月后,也开始生兔子,问N个月后兔子的总数量. 刚开始我一想,这不就是大一就做过的吗,这个就是经典的斐波拉契啊。于是在草稿纸上画着 ...

2018-03-26 21:21:11 236 0

原创 2017小结和2018年小目标

回顾2017: 技术栈 2018年为止,在大数据的技术树又有所提升,下面是一张目前的技术栈,当然,有的可能已经忘记了,但是也有很多都没写上来。 终于把工作内容当成了兴趣 回顾一年前,我还是认为编程,搞技术并不是真正的兴趣,我只是为了赚钱养活自己和家人就OK了。想着如果我有钱...

2018-02-25 01:00:00 593 2

原创 SPARK_SQL工具 TODO

目的 TODO 功能 配置数据库功能 使用XML来配置数据库表和字段的对应属性 xml文件 应该再提供一个数字,说明是第几个字段 读数据 本地: hdfs结构化数据 hive的数据 json数据 csv hdfs: hdfs结构化数据 hive的数据 jso...

2018-01-31 21:01:40 389 0

原创 Bloom Filter的证明以及如何使用

前言, 原理就不讲了 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通 过比对来判定是否在集合内:链表、树,map等数据结构都是这种思路。但是随着集合中元素数目的增加,我们需要的存储空间越来越大,检索速度也越来越慢(O(n),O(logn))。map速度是o(1...

2018-01-30 23:21:06 1356 0

原创 simHash算法

前言: 网上有很多对simHash的算法的讲解,但是大多数的通病是要么讲的太冗余,比如分词讲太多,代码写太多,要么关键点没有讲到,例如针对海量数据,如何利用simHash算法。网上都知道使用抽屉原理,但是要知道这个抽屉原理充分条件而非必要条件。本文主要简单明了讲解一下原理 问题的起源: 设计比...

2018-01-30 22:47:58 480 0

原创 yarn fair-scheduler 公平调度的一个实例

某个集群需求 通过yarn将集群资源设置为A,B两个队列, A队列设置占用资源70%主要用来运行常规的定时任务,B队列设置占用资源30%主要运行临时任务,两个队列间可相互资源共享,假如A队列资源占满,B队列资源比较充裕,A队列可以使用B队列的资源,使总体做到资源利用最大化 采取措施 经过...

2018-01-30 21:42:30 1729 0

原创 fluentd+mongodb构建分布式日志收集系统

前言: 和同事合作安装过一次fluentd+mongodb,网上文档较少,走了好多弯路,幸亏同事比较给力,能成功应用,现将安装笔记记录一下 。(这里只安装了一台,分布式也是一样的,使用mongodb集群即可) 一、 mongodb单机安装1.1 下载解压并安装下载mongodb-linux-...

2017-12-27 21:39:15 3699 0

翻译 yarn资源管理最佳实践

原文翻译自 https://mapr.com/blog/best-practices-yarn-resource-management/#.Ve5bLdOqoVU 有改动 – 翻译以及记录的目的是对yarn进行合理的资源配置,以及yarn平台出错后的分析这篇文章主要是讨论YARN资源管理的最佳实...

2017-12-16 12:32:14 1061 0

翻译 storm分区,并行度笔记- Introducing parallelism in Storm

本文来自Book- 《Storm Blueprints.Patterns》:,个人觉得讲的非常好,就在这做了一个笔记 英语很简单,个人感觉并不需要翻译introducing parallelism in StormRecall from the introduction(间接中提到) that ...

2017-12-01 00:03:44 537 0

原创 storm的第一个例子

Storm的一个简单例子: 本文不涉及到各种细节,只是一个简单的storm程序,用于快速入门例子简介有一个数据源,不断随机发送字符串aa,bb,cc,dd,ee,ff 中选择一个发送给一个程序进行处理。这个程序将这个字符串打印到控制台写道log里面,然后传给下一个程序,下一个程序把这个字符串保...

2017-11-28 23:41:30 425 0

原创 Storm简介

Storm简介是Twitter开源的一个分布式实时计算系统,主要用于数据的实时分析,持续计算,分布式RPC等等。具体简介见google,话不多说 Storm特点: 低延迟:实时计算系统必须要有的 高性能:可以使用普通的服务器建立环境,节约成本。 分布式:适合于分布式计算,适合大数据实时分析,...

2017-11-28 22:34:33 298 0

原创 xmanger登录linux图形桌面

最近经常在本地调试的东西,放在服务器上就运行不了,有时候本地的机器远远没有服务器上的机器强大,这时候想的就是在服务器上装上各种环境,例如eclipse,idea或者其他的环境。这时候,就需要自己能直接使用桌面来进行调试了。 想起之前都是使用ubuntu进行开发,centos自带的桌面系统也是可以支...

2017-11-15 23:31:14 1602 0

原创 centos安装screen ubuntu安装screen 编译安装screen

yun安装:yum install screen ubuntu 的 apt-get安装sudo apt-get update sudo apt-get install screen编译安装为什么我需要编译安装,因为我所操作的集群不能连外网 tar.gz 下载地址: https://ftp.g...

2017-11-07 10:49:07 4635 0

原创 zookeeper Curator框架简单使用

Curator框架的目的 Curatot框架使用一,Curator的基本方法,创建连接,Curator创建节点,删除节点,读取和修改数据,异步回调方法,读取子节点方法,判断子节点是否存在,讲上面异步回调的那个线程池的作用,CuratorWatcher,Curator场景应用一,分布式锁功能,分布式...

2017-11-07 10:01:09 2397 1

原创 zookeeper的ACL

什么是ACLACL 叫做Access Control List,ACL(访问控制列表),例如linux中的文件系统中就有ACL,传统的文件系统中,ACL分为两个维度,一个是属组,一个是权限。 子目录/文件默认继承父目录的ACL。而在Zookeeper中,node的ACL是没有继承关系的,是独立控...

2017-11-03 23:47:31 523 0

原创 zookeeper的zkclient的使用简介

前言Zookeeper的原生API,就之前的那一些,用起来还是比较麻烦的,所以,有些工程师对原生的API接口进行了封装,简化了ZK的复杂性。 1. 创建客户端的方法: ZKClient(Arguments) - 参数1:zkServer zookeeper服务器的地址,用”,”分割 -...

2017-11-03 23:40:51 20835 7

原创 zookeeper的watch(原生API)

github: https://github.com/zhaikaishun/zookeeper_tutorial Zookeeper的watcher事件 zookeeper有watch事件,是一次性触发的,当watch监视的数据发生变化时,通知设置了该watch的client,即wa...

2017-11-03 23:37:24 964 0

原创 zookeeper分布式锁思路(无代码)

什么是分布式锁想必大家肯定很熟悉多线程之间的锁,他们属于同一个jvm,才能实现资源的共享,保证数据一致性,但是,如果在分布式的机器中,我们如何保证数据的一致性呢,这里就需要用到分布式锁的问题。 分布式读写数据库的分布式锁假设有以下场景。 1. 一个WEB应用,部署到多台服务器中,其中通过ngi...

2017-11-03 23:33:53 421 0

原创 操作zookeeper之原生API的基本操作

**关键字:** java原生API,创建连接,创建节点同步方式,获取节点信息,获取子节点信息,修改节点的值 ,判断节点是否存在,删除节点,Zookeeper创建删除等节点的异步方式 java惭怍zooleeper,一种是原生API,一种是zkclient方式,一种是curator框架操作

2017-11-03 23:32:10 489 0

原创 搭建zookeeper集群

Zookeeper环境搭建 前期准备: 由于Zookeeper需要先安装java机器: 三台测试机器 192.168.1.31 192.168.1.32 192.168.1.33 上传zookeeper的压缩包 三个节点都解压到usr/local下 [root@kaishun ...

2017-11-03 23:30:04 372 0

原创 zookeeper简介

zookeeper简介zookeeper主要是一个分布式服务协调框架,实现同步服务,配置维护和命名服务等分布式应用。是一个高性能的分布式数据一致性解决方案。 zookeeper是一个高可用的分布式管理与协调框架,给予ZAB算法(原子消息广播协议)的实现。该框架能很好的保证分布式环境中数据的一致性...

2017-11-03 23:27:24 496 0

原创 Netty入门三之最佳实践

关键字 最佳实践: 数据通信,心跳检测代码在 https://github.com/zhaikaishun/NettyTutorial 代码在SocketIO_03下 – Netty最佳实践实际场景一:数据通信我们需要考虑两台或者多台机器使用Netty如何进行通信,作者个人大体上把他分为3种 ...

2017-10-27 22:07:09 1022 0

原创 Netty入门二 之解编码

关键字:Netty解编码,JBoss Marshalling, 代码在 https://github.com/zhaikaishun/NettyTutorial 在SocketIO_02 kaishun.netty.serial下 Netty解编码技术解编码技术,说白了就是java序列化技术,...

2017-10-27 22:01:51 689 0

原创 Netty入门一

关键字: Netty简介,Netty实现通信的步骤,绑定多个端口,TCP粘包、拆包问题,DellmiterBasedFrameDecoder(自定义分隔符), FixedLengthFrameDecoder(定长)代码在 https://github.com/zhaikaishun/NettyTu...

2017-10-27 21:55:46 924 0

原创 传统的socket之BIO到伪异步IO到NIO最后到AIO简介

关键字:NIO, IO,BIO,AIO的简介以及演变原因 如果想深入学习nio, 参考 http://www.iteye.com/magazines/132-Java-NIO java nio 系列教程 本人对nio确实也了解的不深,此文只是简介 代码在 https://github.c...

2017-10-27 21:48:58 556 0

提示
确定要删除当前文章?
取消 删除