自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 【避坑】Java 两个对象的比较

问题:Java中两个对象比较是否相等正确方案:"身份证".equals(condition)注:1)condition.equals("身份证"),这种形式时,当condition为null时,会报空指针异常;2)condition=="身份证",这种形式==,比较的不是对象,而是对象的内存地址...

2019-07-31 17:20:00 607 1

原创 【经典】MapReduce WordCount案例:需求1-4

* 需求一:在一堆给定的文本文件中统计输出每一个单词出现的总次数* 需求二:把单词按照ASCII码奇偶数分区* 需求三:对每一个maptask的输出做局部汇总* 方案一:写一个combiner类继承Reducer,其实是把WordCountReducer再写一次* 方案二:直接把WordCountReducer指定给CombinerClass* 需求四:大量小文件的切片优化一、...

2019-07-19 11:27:13 360

转载 面试官:你对MySQL高性能优化有什么规范建议?

数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份表必须以bak_为前缀并以日期(时间戳)为后缀 所有存储相同数据的列名和列类...

2019-07-19 09:51:50 175

转载 NCDC数据集准备

一. 原始气象数据集下载:如果我们想获取更多的气象原始数据集时,我们可以通过NCDC的ftp服务器获取数据,实例如下NCDC FTP数据服务器:ftp.ncdc.noaa.govNCDC 原始文件路径:pub/data/noaa/1. 使用FTP终端获取NCDC数据集打开ftp终端连接FTP服务器,使用匿名登录,账户名为:anonymous,密码随便输,回车即可(如果此步输入错误...

2019-07-11 11:02:36 1389

转载 再来聊一聊「动态规划」

动态规划算法(Dynamic Programming,简称 DP)似乎是一种很高深莫测的算法,你会在一些面试或算法书籍的高级技巧部分看到相关内容,什么状态转移方程,重叠子问题,最优子结构等高大上的词汇也可能让你望而却步。而且,当你去看用动态规划解决某个问题的代码时,你会觉得这样解决问题竟然如此巧妙,但却难以理解,你可能惊讶于人家是怎么想到这种解法的。实际上,动态规划是一种常见的「算法...

2019-07-09 14:54:10 225

转载 一条 SQL 在 Apache Spark 之旅(下)

终于到最后一篇了,我们在前面两篇文章中《一条 SQL 在 Apache Spark 之旅(上)》和《一条 SQL 在 Apache Spark 之旅(中)》介绍了SparkSQL 之旅的 SQL 解析、逻辑计划绑定、逻辑计划优化以及物理计划生成阶段,本文我们将继续接上文,介绍SparkSQL 的全阶段代码生成以及最后的执行过程。文章目录1全阶段代码生成阶段 - WholeS...

2019-07-05 19:41:40 755

转载 一条 SQL 在 Apache Spark 之旅(中)

在《一条 SQL 在 Apache Spark 之旅(上)》文章中我们介绍了一条 SQL 在 ApacheSpark之旅的 Parser 和 Analyzer 两个过程,本文接上文继续介绍。文章目录1优化逻辑计划阶段 - Optimizer 1.1谓词下推 1.2列裁剪 1.3常量替换 1.4常量累加 2生成可执行的物理计划阶段 - SparkPl...

2019-07-05 19:40:11 356

转载 一条 SQL 在 Apache Spark 之旅(上)

SparkSQL 是Spark众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本。目前,整个 SQL 、Spark ML、Spark Graph 以及 Structured Streaming 都是运行在 Catalyst Optimization & Tungsten Executi...

2019-07-05 19:38:51 279

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除