- 博客(27)
- 资源 (3)
- 收藏
- 关注
原创 关于postgresql数据库路由设置(dblink/fdw)
1、创建postgres_fdw:create extension postgres_fdw2、查看postgres_fdw:select * from pg_extension;3、用postgres_fdw创建远程路由:create server server_remote_70 foreign data wrapper postgres_fdw options(h
2018-01-29 20:33:59 1292
原创 redis命令
String命令 描述SET key value 设置指定key的值(会覆盖无视数据类型)GET key 获取指定key的值GETRANGE key start end 返回key中字符串值的子字符GETSET key value 将给定key的值设为value,并返回key的旧值(old value)GETBIT key offset 对key所储存的字符串值,获取指定偏
2018-01-29 20:30:52 229
原创 spark运行命令样例
local单机模式:结果xshell可见:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100standalone集群模式:需要的配置项1, slaves文件2, spa
2018-01-29 20:30:06 473
原创 WebSocket 在线测试
http://www.blue-zero.com/WebSocket/ws://localhost:8080/7Fine.im/websocket/1711221006359720000094936
2017-11-29 10:18:52 2923
原创 java时间格式转换String->long
String time = "2017-10-27 15:53:21";SimpleDateFormat sdf=new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");long g = sdf.parse(time).getTime();
2017-10-30 17:30:34 250
原创 java时间格式转换long->String
long d = 1509090801282;Date dataTime = new Date(d);SimpleDateFormat formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");String s = formatter.format(dataTime);
2017-10-30 17:22:50 833
原创 Spark-submit脚本
Spark-submit.sh /opt/spark/bin/spark-submit \--master yarn \--deploy-mode cluster \--num-executors 8 \ 集群上启动的executor数--executor-memory 1g \ --executor-cores 5 \ 每个executor运行的核数,即一个
2017-10-15 13:23:52 344
转载 sparkSQL性能调优
对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据 Spark SQL可以通过调用sqlContext.cacheTable("tableName")方法来缓存使用柱状格式的表。然后,Spark将会仅仅浏览需要的列并且自动地压缩数据以减少内存的使用以及垃圾回收的压力。你可以通过调用sqlContext.uncacheTable("tab
2017-10-09 12:41:05 492
原创 Spark性能优化:开发调优
优化一:避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比如map、reduce等)串起来,这个“RDD串”,就是RDD lineage,也
2017-10-08 16:32:23 262
原创 spark算子
1:Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作map(func):返回一个新的分布式数据集,由每个原元素经过func函数转换后组成filter(func):返回一个新的数据集,由经过func函数后返回值为true的原元素组成flatMap(func)
2017-10-08 15:29:59 354
原创 spark创建RDD方式
Spark RDD基本创建所需要的数据源(集合、本地文件、HDFS、Hbase和HiveSQL等) 1利用集合创建RDD,就是为了方便测试。调用SparkContext的parallelize()方法进行创建并行化的数据集合。val arrays =Array(1,3,4,5,6,7,11,29)valarrayRDD =sc.par
2017-10-08 15:07:45 507
原创 spark相关概念
RDD1、Spark的核心概念是RDD (resilient distributed dataset(弹性分布式数据集)),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同Worker节点上,从而让RDD中的数据可以被并行操作。(
2017-10-08 15:02:41 471
转载 ZooKeeper
ZooKeeper1. ZooKeeper入门1.1. 教学目标1.1.1. 掌握ZooKeeper的是什么1.1.2. 掌握ZooKeeper的角色1.1.3. 掌握ZooKeeper的数据模型和节点1.1.4. 掌握ZooKeeper的单机和集群安装1.1.5. 掌握ZooKeeper的基本操作1.1.6. 了解ZooKeeper的应用场景
2017-10-07 15:01:53 393
转载 HDFS SHELL命令大全
第一个部分为ACL(Access control List)权限第二个部分为备份数量第三个部分为所属用户第四个部分为所属用户组第五个部分为文件大小[单位:字节]第六个部分为文件状态stat第七个部分为文件名称appendToFileUsage: hdfsdfs -appendToFile ... Appendsingle src, or multipl
2017-10-07 14:15:31 417
原创 Spark性能优化:数据数据倾斜(Data Skew)
1.数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task
2017-10-05 14:03:32 515
原创 shell脚本05
awk的概述:awk是一种编程语言,主要用于在linux/unix下对文本和数据进行处理,是linux/unix下的一个工具。数据可以来自标准输入、一个或多个文件,或其它命令的输出。awk的处理文本和数据的方式:逐行扫描文件,默认从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行你想要的操作。gawk是awk的GNU版本,它提供了Bell实验室和GNU的一些扩展。下面介绍的awk是以
2017-09-28 11:33:21 420
原创 shell脚本04
我们经常用的编辑器都有哪些?特点是什么?emacs vi vim nano ... txt doc sed 流编辑器 1、通过非交互式来修改文本中的内容.默认情况下,不会直接修改原文件,而是所有的输出行都被打印到屏幕。逐行处理文件,并将结果发送到屏幕。 2、sed 用来把文档或字符串里面的文字经过一系列编辑命令转换为另一种格式输出。 3
2017-09-28 11:32:34 577
原创 shell脚本03
case (打印菜单,使用case做出选择)语法:case var in ——定义变量pattern 1) ——模式1; 用 | 分割多个模式,相当于or 执行语句1 ——需要执行的语句 ;; ——结束pattern 2) 执行语句2 ;;p
2017-09-28 11:31:39 411
原创 shell脚本02
for 循环语句 循环固定次数语法结构: 1、列表for循环:用于将一组命令执行已知的次数,下面给出了for循环语句的基本格式:for variable in {list} do command command … done 或者for
2017-09-28 11:30:54 748
原创 shell脚本01
编译型语言: 程序在执行之前需要一个专门的编译过程,把程序编译成 为机器语言文件,运行时不需要重新翻译,直接使用编译的结果就行了。程序执行效率高,依赖编译器,跨平台性差些。如C、C++解释型语言: 程序不需要编译,程序在运行时由解释器翻译成机器语言,每执 行一次都要翻译一次。因此效率比较低。比如Python/JavaScript/ Perl /ruby/Shell等
2017-09-28 11:29:26 555
转载 Linux下时间不同步解决
Linux 下 ntp 时间同步问题1:linux下 date命令查看时间和时区2:如不同步的话可通过ntp时间服务器来同步3:[root@node1 ~]# rpm -q ntpntp-4.2.4p8-2.el6.x86_64 如果没有安装,用yum安装[root@node1 ~]# yum install ntp4:按上面的安装方式在内网每台服务器上都安装好NT
2017-09-01 12:35:49 805
翻译 Spark SQL 1.6.2官方文档中文版
1 概述(Overview)2 DataFrames2.1 入口:SQLContext(Starting Point: SQLContext)2.2 创建DataFrames(Creating DataFrames)2.3 DataFrame操作(DataFrame Operations)2.4 运行SQL查询程序(Running SQL Queries Programmatically)2.5 D
2017-08-29 11:41:18 707
转载 Expect ssh免秘钥登入自动脚本(ssh-copy-id、expect免交互输入脚本)
转自:blog.csdn.net/tantexian 无密钥登录的自动脚本实现:vim auto_ssh.sh #!/usr/bin/expect set timeout 10 set username [lindex $argv 0] set password [lindex $argv 1] set hostname [lindex $argv 2] spawn ssh-
2017-08-28 22:47:31 929
翻译 Spark性能优化-Shuffer调优
from:http://spark.apache.org/docs/1.6.2/configuration.html#shuffle-behaviorspark.shuffle.file.buffer以下是Shffule过程中的一些主要参数,这里详细讲解了各个参数的功能、默认值以及基于实践经验给出的调优建议。默认值:32k参数说明:该参数用于设置shufflewrite tas
2017-08-28 21:47:39 725
转载 Java JVM 垃圾回收(GC)过程
JVM堆内存的简单的区域划分,都是基于JVM-HotSpot版本,早期的版本jvm-classic / IBM新生代Eden(伊甸园)当Eden区中的对象达到一定程度的时候,Eden区域就不能再容纳新的对象的时候,就要开始清理Eden区中一些不再被使用(不在被引用的)对象,经过清理后的对象流入Survivor Space(幸存区)Survivor Space(幸存区
2017-08-28 21:24:37 242
转载 Spark性能优化:资源调优篇
但凡是资源调优,就是通过软件/程序的环境参数的配置调整,来达到程序运行的相对比较高效率的目的。 比如在spark中配置spark.executor.nums/spark.executor.memory/spark.driver.memory等等。 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命
2017-08-28 20:51:41 434
转载 Java中的四种引用方式及其区别
强引用、软引用、弱引用、虚引用的概念强引用(StrongReference)强引用就是指在程序代码之中普遍存在的,比如下面这段代码中的object和str都是强引用:12Object object = new Object();String str = "hello";System.out.prin
2017-08-28 12:48:23 594
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人