大数据
杂说
杂说,咋说
展开
-
Hadoop与Spark关系
Hadoop与Spark的关系目录一:介绍1:Spark2:Hadoop二:不同层面的关系1:功能2:依赖关系3:数据量影响4:容错说明:近期在做一个图关系项目时,使用到了saprk分析引擎和Hadoop的HDFS文件系统,在了解的过程中产生了关于Hadoop与Spark的关系是什么样的疑问,在此简单的整理一下一:介绍1:SparkApache Spark™ is a unified...原创 2018-11-11 17:29:14 · 4536 阅读 · 0 评论 -
数据对齐-编辑距离算法详解(Levenshtein distance)
目录一:简介二:算法定义1:定义2:a small case3:算法的上下界限三:应用场景1:数据对齐2:拼写纠错四:其他的编辑距离算法五:算法实现1:递归实现2:动态规划实现总结一句话:编辑距离就是从一个字符串变到另外一个字符串所需要最小的步骤一:简介在信息论、语言学和计算机科学中,Levenshtein distance是用于测量两个字符串之间差异的字符串度量。非正式的说就是两个单词之间...原创 2018-12-14 20:26:34 · 3810 阅读 · 5 评论