学习
文章平均质量分 58
chouisbo
Reading, Coding, Writing, Thinking
展开
-
Hamming Distance (汉明距离)
汉明距离原创 2017-02-07 10:20:50 · 78658 阅读 · 2 评论 -
Edit Distance(编辑距离)
Edit Distance(编辑距离) 在计算机科学中,编辑距离用于度量任意两个字符串间不相似的程度,即二者之间的编辑距离越大表示两个字符串之间的差异就越大。问题描述: 给定两个字符串x和y,只允许使用三种操作(插入一个字符、删除一个字符、修改一个字符)将x变换为y,求最少需要的操作次数。(更进一步,还需给出变换的具体步骤)原创 2017-02-08 09:55:02 · 1340 阅读 · 0 评论 -
Binary Heap(二叉堆)
Binary Heap(二叉堆) 在计算机科学中,二叉堆是二叉树形状的堆结构。二叉堆是最常见的实现优先级队列的方法,它与优先级队列紧密相连,一起应用到诸多地方,在很多主流语言的标准算法库中都能看到它们的身影。同时它也是很多算法中需要用到的底层数据结构,能够快速地掌握这些已有的标准库和类,能够很高效地实现诸多算法。原创 2017-02-10 13:24:28 · 1652 阅读 · 0 评论 -
Scikit-Learn 实战 iris数据集分类
数据科学-Python-实战iris数据集分类Iris数据集 是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。原创 2017-02-09 15:29:38 · 7810 阅读 · 1 评论 -
Reservior Sampling (蓄水池抽样算法)
蓄水池抽样问题是,从一个长度为n的流中随机选取k个元素,使得n个元素中的每个元素都以相同的概率被采样到,通常情况下n是一个未知的很大的数目,而且无法将其载入主存中。原创 2017-02-13 11:12:35 · 2106 阅读 · 0 评论 -
Spark快速安装与部署运行
Spark快速安装与部署运行原创 2017-03-07 10:13:47 · 494 阅读 · 0 评论