- 博客(11)
- 资源 (15)
- 收藏
- 关注
原创 Mac安装 anaconda及其基本命令
1. anaconda是什么Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。这里先解释下conda、a...
2018-09-25 21:28:42 10895 2
原创 Spark RDD 特征及其依赖
1 RDD特征分区(partition)有一个数据分片列表,能够将数据进行切分,切分后的数据能够进行并行计算,是数据集的原子组成部分函数 compute计算每个分片,得出一个可遍历的结果,用于说明在父RDD上执行何种计算依赖 dependency计算每个RDD对父RDD的依赖列表,源RDD没有依赖,通过依赖关系描述血统(lineage)优先位置(可选)每一个分片的优先计算位置(pr...
2018-09-23 15:12:43 1171
原创 scala常用操作-去除字符串最后一个字符
不BB直接上代码/** * @ author: zjf * @ description: * @ date: 2018/9/20 20:55 */object Test { def main(args: Array[String]): Unit = { deleteLastCharInstr("abcde") } def deleteLastChar...
2018-09-20 21:44:20 9047 1
原创 scala常用操作-Tuple元祖转换成String字符串
不BB直接上代码:object Test { def main(args: Array[String]): Unit = { val a = ("a", 1, 9.9) var rs = "" a.productIterator.foreach(v=> rs = rs + v.toString+"\t") println(rs) }}
2018-09-20 21:42:23 6986
原创 scala语法 - 高级for循环:循环守卫、多表达式、yield关键字
1. 以符号 <- 提供生成器// 基础用法for (i <- 1 to 3) { println(i)}RS:1232. 可以提供多个生成器,并以分号分隔// 以 <- 变量表达式的形式,提供多个for循环,以;隔开for (i <- 1 to 3; j <-1 to 3) { println(s"i=$i, j=$j, i+j=${...
2018-09-17 21:17:13 3477 1
原创 Hadoop fs shell命令汇总
FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认sche...
2018-09-13 17:07:46 233
原创 macOS High Sierra python pip 安装权限报错解决
问题背景 需要使用Python的 matplotlib模块,于是使用 pip install matplotlib进行安装,安装时报错:OSError: [Errno 13] Permission denied: '/Library/Python/2.7/site-packages/pip-9.0.1-py2.7.egg/EGG-INFO/PKG-INFO'解决方案sudo ...
2018-09-11 21:23:43 740
原创 LeetCode-3:无重复最长子串
1. 暴力穷举遍历(慢) /** * #3 * 无重复最长字符子串 * https://leetcode-cn.com/problems/longest-substring-without-repeating-characters/description/ * @param s * @return */ /** 方法...
2018-09-07 18:31:17 222
转载 Spark Broadcast
顾名思义,broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这张表 copy 到这些节点,这样 task 就可以在本地查表了。如何实现一个可靠高效的 broadcast 机制是一个有挑战性的问题。先看看 Spark 官网上的一段话: Broadc...
2018-09-05 21:44:28 1686
原创 scala-zipWithIndex、zipWithUniqueId 函数用法解析
1. 是什么 顾名思义,zipWithIndex:通过主键打包,ZipWithUniqueId:通过唯一主键打包。二者的主要作用1. def zipWithIndex(): RDD[(T, Long)]该函数将RDD中的元素和这个元素在RDD中的ID(索引号)组合成键/值对。2. def zipWithUniqueId(): RDD[(T, Long)]该函数将RDD...
2018-09-05 21:34:42 3970 1
原创 shell脚本中计算时间差
1. 获取开始、结束时间(获取当前时间)timer_start=`date &quot;+%Y-%m-%d %H:%M:%S&quot;`timer_end=`date &quot;+%Y-%m-%d %H:%M:%S&quot;`2. 计算时间差duration=$(($(date +%s -d &quot;${timer_end}&quot;) - $(date +%s -d &
2018-09-04 14:53:39 19582 7
zjf-20200418-train-data-origin.csv
2020-04-20
metrics-core-2.2.0.jar
2017-09-21
netty-all-4.0.23.Final.jar
2017-09-21
SecureCrt x64
2017-09-14
新闻发布系统
2016-06-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人