自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

漂浮

里面都是平时学习和工作中碰到的一些问题及解决方法,希望可以帮到大家。有不同见解的,可以在下面评论,反正我也不会看的。(开玩笑了)

  • 博客(10)
  • 资源 (36)
  • 收藏
  • 关注

原创 spark操作mysql数据库

spark对mysql提供了一些基本的读写操作,今天这边文章主要从读写两个方面来讲。一、spark读取mysql数据库1、通过JdbcRdd来读取      首先看一下官方文档是如何介绍的翻译为:1、getConnection 返回一个已经打开的结构化数据库连接,JdbcRDD会自动维护关闭。2、sql 是查询语句,此查询语句必须包含两处占位符?来作为分割数据

2016-07-18 18:03:18 13237

原创 spark函数讲解:aggregate

函数原型:defaggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): UAggregate the elements of each partition, and then the results for all the partitions, using

2016-07-13 18:44:45 2522

转载 spark函数讲解:cogroup

cogroup:将多个RDD中同一个Key对应的Value组合到一起。最多可以组合四个RDD函数原型:def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], partitioner: Partitioner) : RDD[(K, (Itera

2016-07-13 17:20:05 5279

转载 Spark函数讲解:collectAsMap

/** * User: 过往记忆 * Date: 15-03-16 * Time: 上午09:24 * bolg: http://www.iteblog.com * 本文地址:http://www.iteblog.com/archives/1289 * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货 * 过往记忆博客微信公共帐号:

2016-07-13 17:08:19 4315

转载 spark性能调优指南(四)(shuffle调优)

shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此

2016-07-12 18:34:49 1000

转载 Spark性能优化指南(三)(数据倾斜调优)

数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三

2016-07-12 18:11:40 894

转载 Spark性能优化指南(二)(资源调优)

本文转自美团技术博客:http://tech.meituan.com/spark-tuning-basic.html资源调优调优概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。

2016-07-12 17:31:32 1119

转载 Spark性能优化指南(一)(开发调优)

本文转自美团技术博客:http://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中

2016-07-12 17:28:06 851

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by    Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。    这里跟传统的sql还有一点

2016-07-12 17:07:14 829

原创 偏差和方差

偏差(Bias):描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差(Variance):描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。下面通过一个故事来讲解:想象你开着一架黑鹰直升机,得到命令攻击地面上一只敌军部队,于是你连打数十梭子,结果有一下几种情况:

2016-07-12 16:50:28 862

mysql-connector-java-5.1.22-bin.jar

mysql-connector-java-5.1.22-bin.jar

2016-06-21

基于maven的spring mvc+Mybatis纯净版框架

基于maven的spring mvc+Mybatis纯净版框架

2016-03-10

mybatis-generator 代码自动生成工具---内有详细介绍

mybatis-generator 代码自动生成工具,里面有详细介绍

2016-03-09

基于inputbox的省市区4级联动

基于inputbox的省市区4级联动,只需要从DB中查询一次数据,动态生成下拉列表

2014-08-21

基于inputbox的省市区3级联动.rar

下拉菜单3级联动,只需要从DB中读出一次数据,实现省-市-区三级连动

2014-08-21

javax.mail-1.4.4.jar免费下载

javax.mail java发送邮件所用的jar包

2014-08-10

词法分析编译器 编译原理

词法编译器 包含源代码 C++ 编译原理课程设计

2011-06-29

操作系统基本分页实验报告 C++

操作系统 基本分页 实验报告 C++ 代码

2011-06-29

操作系统基本分页实验报告

操作系统 基本分页 实验报告 C++ 代码

2011-06-29

操作系统动态内存分配实验报告 C++

操作系统 动态内存分配 实验报告 C++

2011-06-29

动态内存分配实验报告

操作系统 动态内存分配 实验报告 C++

2011-06-29

操作系统时间片轮转实验报告

操作系统 时间片轮转 实验报告 C++ 代码

2011-06-29

时间片轮转算法实验报告

操作系统 时间片轮转 实验报告 C++ 代码

2011-06-29

动态高有先权实验报告

操作系统 动态高优先权 实验报告 C++

2011-06-29

动态高优先权实验报告

操作系统,动态高优先权,实验报告,C++

2011-06-29

基于时间片轮转实验报告

基于时间片轮转 实验报告 操作系统 C++

2011-06-29

操作系统基本分页实验报告

基本分页 实验报告 操作系统 C++代码

2011-06-29

操作系统高优先权实验报告

高优先权调度算法 实验报告 操作系统 C++

2011-06-28

动态内存分配实验报告

动态内存分配 操作系统 实验报告 C++

2011-06-28

贪心法和回溯法在排课系统上的应用.doc

贪心法和回溯法在排课系统上的应用.doc

2011-06-28

回溯法解决N后问题.doc

回溯法解决N后问题,我们的实验报告 C++代码

2011-06-28

基于时间片轮转算法实验报告.doc

基于时间片轮转算法实验报告.doc C++ 操作系统

2011-06-19

操作系统 基本分页实验报告.doc

操作系统 基本分页实验报告.doc c++

2011-06-19

高优先权优先调度算法实验报告

操作系统 高优先权优先调度算法实验报告 C++

2011-06-19

操作系统动态分区分配方式的模拟

操作系统 动态分区 分配方式 的模拟 C++ 实验报告

2011-06-19

C++实现回溯算法 0 1 背包算法

C++代码实现回溯算法 0 1 背包算法

2011-05-18

回溯算法 0-1 背包算法

回溯算法 0-1 背包算法 C++ 代码

2011-05-18

回溯法实现0-1背包问题

回溯法实现0-1背包 C++代码

2011-05-18

学术搜索引擎Google Scholar与国学百度的比较研究

学术搜索引擎Google Scholar与国学百度的比较研究

2011-05-11

power chm5.7

power chm 可以将常用的网页文件和文本文件编译成chm格式的文件,比easy chm功能多一点,可以在内部添加图片和链接,可以在创建的项目中添加文件

2010-11-04

星号查看器_绿色版.rar

直接打开就可用,密码用星号显示的,就可以看到啦

2010-08-13

自己做的小型用户管理系统

自己做的小型用户管理系统,用jsp语言做的

2010-08-13

严蔚敏《数据结构(c语言版)习题集》答案.rar

严蔚敏《数据结构(c语言版)习题集》答案.rar,很全的哦,呵呵

2010-06-09

java做的图书管理系统

这是我们老师布置的作业,用java写的一个图书管理系统,可以运行,我还得了个优呢,欢迎下载啊

2010-06-07

div+css从入门到精通

div+css设计彻底研究--从入门到精通,很适合初学者,里面是例子

2010-06-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除