翟开顺

谦谦君子,卑以自牧

spark常用RDD算子 汇总(java和scala版本)

spark RDD的算子挺多,有时候如何灵活的使用,该如何用一下子想不起来,这一段时间将spark的算子如何使用的例子给记录了下来,下面是spark RDD 的一些常用算子的使用 这些算子包括有java的,也有scala的语言,由于精力有限,暂时没有python的,以后有空再加上吧 spark...

2017-05-14 20:52:48

阅读数 5740

评论数 1

分布式之CAP定理与个人见解

本文是个人见解,或许和网上有稍许不同,应该是我的问题,但我只能这样想,才想得通。如有不对,请批评指正 1. CAP是什么: 分布式系统中,一致性、可用性、分区容忍性最多只可同时满足两个 先介绍CAP分别是什么 Consistency 一致性,通过某个节点的写操作结果对后面通过其它节点的读操作可见...

2019-01-27 23:55:02

阅读数 54

评论数 0

腾讯大数据之 TDW 计算引擎解析——Shuffle

腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作业数达到100多万,已经成为公司最大的离线数据处...

2019-01-07 22:55:43

阅读数 74

评论数 0

MYSQL和SQLSERVER数据导入简单小工具

MYSQL和SQLSERVER数据导入简单工具 1. 简介 项目灵感来源于自己经常会分析一些小文本文件,经常用excel等分析不太方便,所以做了这个工具。能将文件简单导入到mysql,sqlserver的工具,目前支持文件,文件夹,hdfs文件,文件夹,以后会支持excel等文件,导入的 字段名称...

2018-12-27 21:48:51

阅读数 68

评论数 0

jdbc大批量数据导入mysql和sqlserver,最快速方法

1. mysql大批量导入: 使用load的方法最快, 但是我们知道,load只能load文件,但是如果我们想load内存里面的一些数据怎么办呢,可以参考这篇文章 https://blog.csdn.net/seven_3306/article/details/9237495 不写文件,同时LOA...

2018-12-27 21:44:34

阅读数 190

评论数 0

java线上程序排错经验5 -linux及其集群环境的分析

top命令查看整体情况 top命令和灵活,具体可自行搜索 查看内存 free -m 分析系统内存,看是否足够程序运行 磁盘占用情况 3.1. 查看文件夹中各文件(夹)的大小 举例 du -h --max-depth=1 /home/u...

2018-09-16 01:50:29

阅读数 127

评论数 0

java线上程序排错经验4 -Btrace了解一下

简介 在生产环境中经常遇到格式各样的问题,如OOM或者莫名其妙的进程死掉。一般情况下是通过修改程序,添加打印日志;然后重新发布程序来完成。然而,这不仅麻烦,而且带来很多不可控的因素。有没有一种方式,在不修改原有运行程序的情况下获取运行时的数据信息呢?如方法参数、返回值、全局变量、堆栈信息等。...

2018-09-16 01:47:45

阅读数 264

评论数 0

java线上程序排错经验3 - jvm内存分析

前言 堆分析工具很多,这里只介绍一种分析的方法,也是最原始的一种,以后会在这篇文字里面慢慢补充 1. 先得到堆 1.1 jmap得到堆 直接jmap查看使用方法 ubuntu@VM-0-12-ubuntu:~$ jmap Usage: ...

2018-09-16 01:42:04

阅读数 156

评论数 0

java线上程序排错经验2 - 线程堆栈分析

1.前言 在线上的程序中,我们可能经常会碰到程序卡死或者执行很慢的情况,这时候我们希望知道是代码哪里的问题,我们或许迫切希望得到代码运行到哪里了,是哪一步很慢,是否是进入了死循环,或者是否哪一段代码有问题导致程序很慢,或者出现了线程不安全的情况,或者是某些连接数或者打开文件数太多等问题,总之我们...

2018-09-16 01:35:07

阅读数 697

评论数 0

java程序线上排错经验1- 了解JVM相关知识

原文: https://github.com/CyC2018/CS-Notes/blob/master/notes/Java%20%E8%99%9A%E6%8B%9F%E6%9C%BA.md 本文主要参考与《深入理解java虚拟机》 * 一、运行时数据区域 * 程序计数器 ...

2018-09-01 23:39:57

阅读数 99

评论数 0

mapreduce的map阶段中某几个task非常慢的一次排错过程与总结

发现问题: 在家里的测试集群测试数据,发现如下问题: 程序map阶段很慢,然后通过hadoop的集群界面,几乎大多数的task都是在几分钟就执行完,看到有几个task非常慢,执行了4个多小时还不到一半。 分析原因 要么数据和代码问题,要么测试集群问题 初步查看测试集群问...

2018-08-03 09:59:40

阅读数 956

评论数 1

yarn基本组成架构与工作流程简介

之前记录的笔记,摘抄自哪里忘记了。 二.YARN基本组成结构 YARN 总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为 Slave,ResourceManager负责对各个NodeManager上的资源...

2018-07-26 10:20:28

阅读数 253

评论数 0

maven打jar包几种方式

https://blog.csdn.net/puhaiyang/article/details/78380550 指定打的jar包使用的jdk版本 <plugin> ...

2018-07-25 10:58:00

阅读数 4764

评论数 0

某远程工具 crack install

个人使用teamview是可以的,商业使用尽量还是买一个,毕竟做软件不容易 TeamView简介 teamview是一款用于远程的工具,相比于QQ等,速度和流畅度简直不能再好,teamView比较良心,普通使用一般是免费的,但是如果比较频繁,会被检测为商业用途,这时候就不能用了,然...

2018-05-11 09:00:25

阅读数 3634

评论数 10

yarn mapreduce或者hive参数最佳实践

合理设置队列名 mapreduce.job.queuename 设置队列名 map读取时进行小文件整合 mapreduce.input.fileinputformat.split.minsize mapreduce.input.fileinputformat.spl...

2018-05-05 12:05:10

阅读数 647

评论数 0

兔子递归公式的本质到联想到的一些道理

兔子递归问题 前几天有个同事考我一个有关兔子递归的题目:题目如下 有一对兔子,生长到第3个月时。开始生第一对兔子,并且以后每月生一对兔子,小兔子生长三个月后,也开始生兔子,问N个月后兔子的总数量. 刚开始我一想,这不就是大一就做过的吗,这个就是经典的斐波拉契啊。于是在草稿纸上画着 ...

2018-03-26 21:21:11

阅读数 154

评论数 0

2017小结和2018年小目标

回顾2017: 技术栈 2018年为止,在大数据的技术树又有所提升,下面是一张目前的技术栈,当然,有的可能已经忘记了,但是也有很多都没写上来。 终于把工作内容当成了兴趣 回顾一年前,我还是认为编程,搞技术并不是真正的兴趣,我只是为了赚钱养活自己和家人就OK了。想着如果我有钱...

2018-02-25 01:00:00

阅读数 435

评论数 1

SPARK_SQL工具 TODO

目的 TODO 功能 配置数据库功能 使用XML来配置数据库表和字段的对应属性 xml文件 应该再提供一个数字,说明是第几个字段 读数据 本地: hdfs结构化数据 hive的数据 json数据 csv hdfs: hdfs结构化数据 hive的数据 jso...

2018-01-31 21:01:40

阅读数 289

评论数 0

Bloom Filter的证明以及如何使用

前言, 原理就不讲了 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通 过比对来判定是否在集合内:链表、树,map等数据结构都是这种思路。但是随着集合中元素数目的增加,我们需要的存储空间越来越大,检索速度也越来越慢(O(n),O(logn))。map速度是o(1...

2018-01-30 23:21:06

阅读数 557

评论数 0

simHash算法

前言: 网上有很多对simHash的算法的讲解,但是大多数的通病是要么讲的太冗余,比如分词讲太多,代码写太多,要么关键点没有讲到,例如针对海量数据,如何利用simHash算法。网上都知道使用抽屉原理,但是要知道这个抽屉原理充分条件而非必要条件。本文主要简单明了讲解一下原理 问题的起源: 设计比...

2018-01-30 22:47:58

阅读数 281

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭