关闭

利用SSH隧道技术实现跳板机SHELL登陆以及SFTP到内网服务器

跳板原理 SSH隧道技术,分别有三种方法实现:本地端口转发、远程端口转发、静态SOCKS代理 XMANAGER——静态SOCKS代理 出于安全考虑,公司的一组应用服务器仅允许特定P远程SSH访问,带来安全防护的同时也增加了进行SSH登录和SFTP上传维护的繁琐,在授权的IP服务器上搭建VPN作为跳板是一种解决方案,本文阐述的,是另一种更加简单的安全访问方式,主要是基于日常维护...
阅读(2524) 评论(0)

Mybatis JdbcType与Oracle、MySql数据类型对应列表

1. Mybatis JdbcType与Oracle、MySql数据类型对应列表 Mybatis JdbcType Oracle MySql JdbcType ARRAY     JdbcType BIGINT   BIGINT JdbcType BINARY ...
阅读(2644) 评论(0)

java Comparable 和Comparator详解及 区别(附代码)

java中,对集合对象或者数组对象排序,有两种实现方式。 即:(1)对象实现Comparable 接口         (2)定义比较器,实现Comparator接口。 下面会简要介绍这两种方法的区别,并附上实现代码,供大家参考。 Comparable介绍 Comparable是在集合内部定义的方法实现的排序,位于java.lang下。 Comparable 接口仅仅只包括...
阅读(1442) 评论(1)

java mysql 高性能批量处理 设置rewriteBatchedStatements

昨天研究了一下mysql的批处理,最初发现很慢 10000条    每次1000    243秒 50000条    每次500条   1295秒 代码如下:package main; import java.sql.*; public class JdbcStreaming { public static void main(String[] args){ try {...
阅读(3571) 评论(0)

spark操作mysql数据库

spark对mysql提供了一些基本的读写操作,今天这边文章主要从读写两个方面来讲。 一、spark读取mysql数据库 1、通过JdbcRdd来读取       首先看一下官方文档是如何介绍的 翻译为: 1、getConnection 返回一个已经打开的结构化数据库连接,JdbcRDD会自动维护关闭。 2、sql 是查询语句,此查询语句必须包含两处占位符?来作为分割数据...
阅读(5082) 评论(0)

spark函数讲解:aggregate

函数原型: def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U Aggregate the elements of each partition, and then the results for all the partitions, using...
阅读(908) 评论(0)

spark函数讲解:cogroup

cogroup:将多个RDD中同一个Key对应的Value组合到一起。最多可以组合四个RDD 函数原型: def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], partitioner: Partitioner) : RDD[(K, (Itera...
阅读(1730) 评论(0)

Spark函数讲解:collectAsMap

/** * User: 过往记忆 * Date: 15-03-16 * Time: 上午09:24 * bolg: http://www.iteblog.com * 本文地址:http://www.iteblog.com/archives/1289 * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货 * 过往记忆博客微信公共帐号:...
阅读(1073) 评论(0)

spark性能调优指南(四)(shuffle调优)

shuffle调优 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此...
阅读(572) 评论(0)

Spark性能优化指南(三)(数据倾斜调优)

数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三...
阅读(558) 评论(0)

Spark性能优化指南(二)(资源调优)

本文转自美团技术博客:http://tech.meituan.com/spark-tuning-basic.html 资源调优 调优概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。...
阅读(741) 评论(0)

Spark性能优化指南(一)(开发调优)

本文转自美团技术博客:http://tech.meituan.com/spark-tuning-basic.html 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中...
阅读(563) 评论(0)

hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by     Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。     这里跟传统的sql还有一点...
阅读(414) 评论(0)

偏差和方差

偏差(Bias):描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。 方差(Variance):描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。 下面通过一个故事来讲解: 想象你开着一架黑鹰直升机,得到命令攻击地面上一只敌军部队,于是你连打数十梭子,结果有一下几种情况:...
阅读(409) 评论(0)

java通过JDBC操作mysql数据库

package main; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.Statement; import java.util.ArrayList; import java.util.List; public class DBConnec...
阅读(405) 评论(0)
147条 共10页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1236038次
    • 积分:7004
    • 等级:
    • 排名:第3617名
    • 原创:90篇
    • 转载:56篇
    • 译文:1篇
    • 评论:132条
    最新评论