- 博客(8)
- 收藏
- 关注
原创 【避坑】Java 两个对象的比较
问题:Java中两个对象比较是否相等正确方案:"身份证".equals(condition)注:1)condition.equals("身份证"),这种形式时,当condition为null时,会报空指针异常;2)condition=="身份证",这种形式==,比较的不是对象,而是对象的内存地址...
2019-07-31 17:20:00 607 1
原创 【经典】MapReduce WordCount案例:需求1-4
* 需求一:在一堆给定的文本文件中统计输出每一个单词出现的总次数* 需求二:把单词按照ASCII码奇偶数分区* 需求三:对每一个maptask的输出做局部汇总* 方案一:写一个combiner类继承Reducer,其实是把WordCountReducer再写一次* 方案二:直接把WordCountReducer指定给CombinerClass* 需求四:大量小文件的切片优化一、...
2019-07-19 11:27:13 360
转载 面试官:你对MySQL高性能优化有什么规范建议?
数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份表必须以bak_为前缀并以日期(时间戳)为后缀 所有存储相同数据的列名和列类...
2019-07-19 09:51:50 175
转载 NCDC数据集准备
一. 原始气象数据集下载:如果我们想获取更多的气象原始数据集时,我们可以通过NCDC的ftp服务器获取数据,实例如下NCDC FTP数据服务器:ftp.ncdc.noaa.govNCDC 原始文件路径:pub/data/noaa/1. 使用FTP终端获取NCDC数据集打开ftp终端连接FTP服务器,使用匿名登录,账户名为:anonymous,密码随便输,回车即可(如果此步输入错误...
2019-07-11 11:02:36 1389
转载 再来聊一聊「动态规划」
动态规划算法(Dynamic Programming,简称 DP)似乎是一种很高深莫测的算法,你会在一些面试或算法书籍的高级技巧部分看到相关内容,什么状态转移方程,重叠子问题,最优子结构等高大上的词汇也可能让你望而却步。而且,当你去看用动态规划解决某个问题的代码时,你会觉得这样解决问题竟然如此巧妙,但却难以理解,你可能惊讶于人家是怎么想到这种解法的。实际上,动态规划是一种常见的「算法...
2019-07-09 14:54:10 225
转载 一条 SQL 在 Apache Spark 之旅(下)
终于到最后一篇了,我们在前面两篇文章中《一条 SQL 在 Apache Spark 之旅(上)》和《一条 SQL 在 Apache Spark 之旅(中)》介绍了SparkSQL 之旅的 SQL 解析、逻辑计划绑定、逻辑计划优化以及物理计划生成阶段,本文我们将继续接上文,介绍SparkSQL 的全阶段代码生成以及最后的执行过程。文章目录1全阶段代码生成阶段 - WholeS...
2019-07-05 19:41:40 755
转载 一条 SQL 在 Apache Spark 之旅(中)
在《一条 SQL 在 Apache Spark 之旅(上)》文章中我们介绍了一条 SQL 在 ApacheSpark之旅的 Parser 和 Analyzer 两个过程,本文接上文继续介绍。文章目录1优化逻辑计划阶段 - Optimizer 1.1谓词下推 1.2列裁剪 1.3常量替换 1.4常量累加 2生成可执行的物理计划阶段 - SparkPl...
2019-07-05 19:40:11 356
转载 一条 SQL 在 Apache Spark 之旅(上)
SparkSQL 是Spark众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本。目前,整个 SQL 、Spark ML、Spark Graph 以及 Structured Streaming 都是运行在 Catalyst Optimization & Tungsten Executi...
2019-07-05 19:38:51 279
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人