青于蓝胜于蓝-CSDN博客

原创关于postgresql数据库路由设置（dblink/fdw）

1、创建postgres_fdw：create extension postgres_fdw2、查看postgres_fdw：select * from pg_extension;3、用postgres_fdw创建远程路由：create server server_remote_70 foreign data wrapper postgres_fdw options(h

2018-01-29 20:33:59 1292

原创 redis命令

String命令描述SET key value 设置指定key的值（会覆盖无视数据类型）GET key 获取指定key的值GETRANGE key start end 返回key中字符串值的子字符GETSET key value 将给定key的值设为value，并返回key的旧值(old value)GETBIT key offset 对key所储存的字符串值，获取指定偏

2018-01-29 20:30:52 229

原创 spark运行命令样例

local单机模式：结果xshell可见：./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100standalone集群模式：需要的配置项1, slaves文件2, spa

2018-01-29 20:30:06 473

原创 WebSocket 在线测试

http://www.blue-zero.com/WebSocket/ws://localhost:8080/7Fine.im/websocket/1711221006359720000094936

2017-11-29 10:18:52 2923

原创 java时间格式转换String->long

String time = "2017-10-27 15:53:21";SimpleDateFormat sdf=new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");long g = sdf.parse(time).getTime();

2017-10-30 17:30:34 250

原创 java时间格式转换long->String

long d = 1509090801282;Date dataTime = new Date(d);SimpleDateFormat formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");String s = formatter.format(dataTime);

2017-10-30 17:22:50 833

原创 Spark-submit脚本

Spark-submit.sh /opt/spark/bin/spark-submit \--master yarn \--deploy-mode cluster \--num-executors 8 \ 集群上启动的executor数--executor-memory 1g \ --executor-cores 5 \ 每个executor运行的核数，即一个

2017-10-15 13:23:52 344

转载 sparkSQL性能调优

对于某些工作负载，可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据 Spark SQL可以通过调用sqlContext.cacheTable("tableName")方法来缓存使用柱状格式的表。然后，Spark将会仅仅浏览需要的列并且自动地压缩数据以减少内存的使用以及垃圾回收的压力。你可以通过调用sqlContext.uncacheTable("tab

2017-10-09 12:41:05 492

原创 Spark性能优化：开发调优

优化一：避免创建重复的RDD通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的算子操作（比如map、reduce等）串起来，这个“RDD串”，就是RDD lineage，也

2017-10-08 16:32:23 262

原创 spark算子

1：Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作map(func):返回一个新的分布式数据集，由每个原元素经过func函数转换后组成filter(func):返回一个新的数据集，由经过func函数后返回值为true的原元素组成flatMap(func)

2017-10-08 15:29:59 354

原创 spark创建RDD方式

Spark RDD基本创建所需要的数据源（集合、本地文件、HDFS、Hbase和HiveSQL等） 1利用集合创建RDD，就是为了方便测试。调用SparkContext的parallelize()方法进行创建并行化的数据集合。val arrays =Array(1,3,4,5,6,7,11,29)valarrayRDD =sc.par

2017-10-08 15:07:45 507

原创 spark相关概念

RDD1、Spark的核心概念是RDD (resilient distributed dataset（弹性分布式数据集）)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同Worker节点上，从而让RDD中的数据可以被并行操作。（

2017-10-08 15:02:41 471

转载 ZooKeeper

ZooKeeper1. ZooKeeper入门1.1. 教学目标1.1.1. 掌握ZooKeeper的是什么1.1.2. 掌握ZooKeeper的角色1.1.3. 掌握ZooKeeper的数据模型和节点1.1.4. 掌握ZooKeeper的单机和集群安装1.1.5. 掌握ZooKeeper的基本操作1.1.6. 了解ZooKeeper的应用场景

2017-10-07 15:01:53 393

转载 HDFS SHELL命令大全

第一个部分为ACL(Access control List)权限第二个部分为备份数量第三个部分为所属用户第四个部分为所属用户组第五个部分为文件大小[单位：字节]第六个部分为文件状态stat第七个部分为文件名称appendToFileUsage: hdfsdfs -appendToFile ... Appendsingle src, or multipl

2017-10-07 14:15:31 417

原创 Spark性能优化：数据数据倾斜（Data Skew）

1.数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task

2017-10-05 14:03:32 515

原创 shell脚本05

awk的概述：awk是一种编程语言，主要用于在linux/unix下对文本和数据进行处理，是linux/unix下的一个工具。数据可以来自标准输入、一个或多个文件，或其它命令的输出。awk的处理文本和数据的方式：逐行扫描文件，默认从第一行到最后一行，寻找匹配的特定模式的行，并在这些行上进行你想要的操作。gawk是awk的GNU版本，它提供了Bell实验室和GNU的一些扩展。下面介绍的awk是以

2017-09-28 11:33:21 420

原创 shell脚本04

我们经常用的编辑器都有哪些？特点是什么？emacs vi vim nano ... txt doc sed 流编辑器 1、通过非交互式来修改文本中的内容.默认情况下,不会直接修改原文件，而是所有的输出行都被打印到屏幕。逐行处理文件,并将结果发送到屏幕。 2、sed 用来把文档或字符串里面的文字经过一系列编辑命令转换为另一种格式输出。 3

2017-09-28 11:32:34 577

原创 shell脚本03

case （打印菜单，使用case做出选择）语法：case var in ——定义变量pattern 1) ——模式1；用 | 分割多个模式，相当于or 执行语句1 ——需要执行的语句 ;; ——结束pattern 2) 执行语句2 ;;p

2017-09-28 11:31:39 411

原创 shell脚本02

for 循环语句循环固定次数语法结构： 1、列表for循环：用于将一组命令执行已知的次数，下面给出了for循环语句的基本格式：for variable in {list} do command command … done 或者for

2017-09-28 11:30:54 748

原创 shell脚本01

编译型语言：程序在执行之前需要一个专门的编译过程，把程序编译成为机器语言文件，运行时不需要重新翻译，直接使用编译的结果就行了。程序执行效率高，依赖编译器，跨平台性差些。如C、C++解释型语言：程序不需要编译，程序在运行时由解释器翻译成机器语言，每执行一次都要翻译一次。因此效率比较低。比如Python/JavaScript/ Perl /ruby/Shell等

2017-09-28 11:29:26 555

转载 Linux下时间不同步解决

Linux 下 ntp 时间同步问题1：linux下 date命令查看时间和时区2：如不同步的话可通过ntp时间服务器来同步3：[root@node1 ~]# rpm -q ntpntp-4.2.4p8-2.el6.x86_64 如果没有安装，用yum安装[root@node1 ~]# yum install ntp4：按上面的安装方式在内网每台服务器上都安装好NT

2017-09-01 12:35:49 805

1 概述（Overview）2 DataFrames2.1 入口：SQLContext（Starting Point: SQLContext）2.2 创建DataFrames（Creating DataFrames）2.3 DataFrame操作（DataFrame Operations）2.4 运行SQL查询程序（Running SQL Queries Programmatically）2.5 D

2017-08-29 11:41:18 707

转载 Expect ssh免秘钥登入自动脚本（ssh-copy-id、expect免交互输入脚本）

转自：blog.csdn.net/tantexian 无密钥登录的自动脚本实现：vim auto_ssh.sh #!/usr/bin/expect set timeout 10 set username [lindex $argv 0] set password [lindex $argv 1] set hostname [lindex $argv 2] spawn ssh-

2017-08-28 22:47:31 929

翻译 Spark性能优化-Shuffer调优

from：http://spark.apache.org/docs/1.6.2/configuration.html#shuffle-behaviorspark.shuffle.file.buffer以下是Shffule过程中的一些主要参数，这里详细讲解了各个参数的功能、默认值以及基于实践经验给出的调优建议。默认值：32k参数说明：该参数用于设置shufflewrite tas

2017-08-28 21:47:39 725

转载 Java JVM 垃圾回收（GC）过程

JVM堆内存的简单的区域划分，都是基于JVM-HotSpot版本，早期的版本jvm-classic / IBM新生代Eden（伊甸园）当Eden区中的对象达到一定程度的时候，Eden区域就不能再容纳新的对象的时候，就要开始清理Eden区中一些不再被使用（不在被引用的）对象，经过清理后的对象流入Survivor Space（幸存区）Survivor Space（幸存区

2017-08-28 21:24:37 242

转载 Spark性能优化：资源调优篇

但凡是资源调优，就是通过软件/程序的环境参数的配置调整，来达到程序运行的相对比较高效率的目的。比如在spark中配置spark.executor.nums/spark.executor.memory/spark.driver.memory等等。在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命

2017-08-28 20:51:41 434

转载 Java中的四种引用方式及其区别

强引用、软引用、弱引用、虚引用的概念强引用（StrongReference）强引用就是指在程序代码之中普遍存在的，比如下面这段代码中的object和str都是强引用：12Object object = new Object();String str = "hello";System.out.prin

2017-08-28 12:48:23 594

青于蓝胜于蓝的博客