- 博客(4)
- 收藏
- 关注
转载 Spark中Task,Partition等关键概念
先盗一个图输入多个hdfs文件,每个文件有多个block,当spark读取多个文件时,将多个block合并为一个输入分片(InputS)
2018-05-26 13:45:01 3024
转载 Spark RDD Persistence
http://www.cnblogs.com/yurunmiao/p/4966393.htmlSpark最为重要的特性之一就是可以在多个操作(Action)之间,将一个或多个RDD关联的数据集(Dataset)以分区(Partition)为单位进行持久化(Persist)或缓存(Cache),存储介质通常是内存(Memory)。 被持久化或缓存的RDD A可以在两种情况下被很好地“重复”利用: (...
2018-05-23 16:33:01 184
转载 局部敏感哈希(LSH)资料(附链接)
最近在看大规模相似数据召回,翻到一个好的资料,分享给大家。原文地址:https://janzhou.org/lsh/,感谢博主。Similarity Measure Similarity measure is a real-valued function that quantifies the similarity between two objects. Although no single ...
2018-05-17 15:37:05 2753
转载 scala中的“《:”
原文地址:https://blog.csdn.net/i6448038/article/details/52061287在看源码的时候出现了“<:” 符号,不知道怎么用,原文总结的很好, mark一下”<:”符号我们定义一个类:“Earth”class Earth { def sound(){ println("hello !") } }我们定义了一个子类:“Anima...
2018-05-14 20:07:01 3481 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人