define_us的专栏

JAVA深入,python浅出

机器学习历史

概率论时期 贝叶斯公式

2019-02-26 17:08:07

阅读数 49

评论数 0

TimingWheel[时间轮]

参考文献 https://blog.csdn.net/zhanglh046/article/details/72833172 概述 在远古时代,我们的定时任务都是使用java.util.Timer来实现的。对于单独的一个Timer,只有一个执行线程。所有任务都保存到一个优先队列里。利用JUC中的线...

2019-02-13 17:53:55

阅读数 60

评论数 0

各种堆——二叉堆,d堆,左式堆,斜堆,二项队列,斐波那契堆

二叉堆 二叉堆就是一个完全二叉树。几乎在所有需要用到优先队列的时候,使用它就完事了。 D-堆 D堆就是一个完全d叉树。所以,d堆会比二叉堆浅的多。 左式堆 Clark Allan Crane,1972年发明。叫这个名字地原因就是这个树左边比右边高。 零路径长:从节点X到一个没有两个子节点的(有一个...

2019-01-21 15:51:51

阅读数 88

评论数 0

伸展树和Treap树

伸展树 伸展树(英语:Splay Tree)是一种能够自我平衡的二叉查找树,它能在均摊O(log n)的时间内完成基于伸展(Splay)操作的插入、查找、修改和删除操作。它是由丹尼尔·斯立特(Daniel Sleator)和罗伯特·塔扬在1985年发明的。伸展树假设想要对一个二叉查找树执行一系列的...

2019-01-21 15:24:20

阅读数 45

评论数 0

动态规划练习题

题目内容 Given exact k steps, how many ways to move a point from start point to destination? Point can move for eight directions(horizontally, vertically...

2019-01-08 10:11:40

阅读数 22

评论数 0

常见数据结构的简单总结

数组 直接下标数组 如JAVA中的ArrayList Hash值Mod为下标 如JAVA中的HashMap 链表 单项链表 双向链表 如JAVA中LinkedList Skip List 跳跃表,可快速查找词语,在lucene、redis、Hbase等均有实现。相对于TreeMap等结构,特...

2018-12-06 17:18:38

阅读数 27

评论数 0

跳表(SkipList)

参考文献 https://www.jianshu.com/p/fcd18946994e 简单介绍 跳表是一种随机化的数据结构 跳表具有如下性质: 由很多层结构组成 每一层都是一个有序的链表 最底层(Level 1)的链表包含所有元素 如果一个元素出现在 Level i 的链表中,则它在 Lev...

2018-12-06 10:52:57

阅读数 30

评论数 0

数据结构之图

存储结构 邻接矩阵 邻接矩阵适合于点少边多的图,而对于边少的图,可以考虑用邻接表。 临接表 图的遍历 深度优先遍历的方法如下。类似于树的前序遍历。同样可以采用递归实现。 a) 假设初始状态是图中所有顶点都未曾访问过,则可从图G中任意一顶点v为初始出发点,首先访问出发点v...

2018-07-02 16:36:06

阅读数 45

评论数 0

KDTree算法

参考文献 https://blog.csdn.net/xiongjinshui/article/details/8103557 最近临点问题 在空间上给出一个点,求解距离该点最近的点。 首先通过二叉树搜索(比较待查询节点和分裂节点的分裂维的值,小于等于就进入左子树分支,等于就进入右子树分...

2018-04-08 17:29:39

阅读数 461

评论数 0

分治算法

归并排序 分解:将要排序的n个元素的序列分解成两个具有n/2个元素的子序列; 解决:使用归并排序分别递归地排序两个子序列; 合并:合并两个已排序的子序列,产生原问题的解。 无序数组的中位数(TopK) 任意挑一个元素,以该元素为支点,将数组分成两部分,左部分是小于等于支点的,右部...

2018-04-08 10:21:47

阅读数 34

评论数 0

隐马尔可夫模型

强烈推荐https://www.zhihu.com/question/20962240

2018-04-04 10:51:57

阅读数 33

评论数 0

蓄水池采样法

转载自https://blog.csdn.net/dm_ustc/article/details/45875971 在数据流处理中的一个常见问题就是数据采样问题。我们希望从流中选择一个子集,以便能够对它进行查询并给出统计性上对整个流具有代表性的结果。 蓄水池采样 具体问题是我们要从数据流...

2018-04-03 14:47:33

阅读数 92

评论数 0

Adaboost

概述 AdaBoost算法是基于Boosting思想的机器学习算法(GBDT也是基于该思想),其中AdaBoost是Adaptive Boosting的缩写,AdaBoost是一种迭代型的算法,其核心思想是针对同一个训练集训练不同的学习算法,即弱学习算法,然后将这些弱学习算法集合起来,构造一个更...

2018-04-03 13:56:08

阅读数 25

评论数 0

朴素贝叶斯(Naive Bayes)

它是机器学习一个特别质朴而深刻的模型:当你要根据多个特征而非一个特征对数据进行分类的时候,我们可以假设这些特征相互独立(或者你先假设相互独立),然后利用条件概率乘法法则得到每一个分类的概率, 然后选择概率最大的那个作为机器的判定。 贝叶斯公式 如果AB都只有发生不发生两种状态,那么贝叶斯公式如...

2018-04-03 13:46:44

阅读数 23

评论数 0

logistic回归

概述 明明叫做回归,却被用在了分类问题上。logistic方法主要应用于研究某些事件发生的概率。 logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。 ...

2018-04-03 10:42:17

阅读数 55

评论数 0

决策树

相关概念 熵: 熵是表示随机变量不确定性的度量,熵越大,随机变量不确定性也就越大 信息增益:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差 信息增益比 基...

2018-04-02 20:03:52

阅读数 38

评论数 0

KNN算法

KNN是一种memory-based learning,也叫instance-based learning,属于lazy learning。即它没有明显的前期训练过程,而是程序开始运行时,把数据集加载到内存后,不需要进行训练,就可以开始分类了。 ...

2018-04-02 19:40:24

阅读数 55

评论数 0

K-Means聚类算法

参考文献 https://blog.csdn.net/u011204487/article/details/59624571 K-Means聚类算法步骤 优点 解决聚类问题的一种经典算法,简单、快速 对处理大数据集,该算法保持可伸缩性和高效性 当簇接近高斯分布时,它的效果较好。 ...

2018-03-30 15:45:35

阅读数 49

评论数 0

两个轨迹相似性的各种方法

针对时间序列轨迹 Fréchet distance Fréchet distance就是狗绳距离:主人走路径A,狗走路径B,各自走完这两条路径过程中所需要的最短狗绳长度。 DTW 在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,在语音识别领域表现为不同人的语速不同...

2018-03-30 15:39:46

阅读数 3409

评论数 0

KMP算法

参考文献: https://blog.csdn.net/starstar1992/article/details/54913261 字符串匹配。给你两个字符串,寻找其中一个字符串是否包含另一个字符串,如果包含,返回包含的起始位置。 KMP算法可以实现复杂度为O(m+n)。 一般匹配字符串时...

2018-03-29 09:55:34

阅读数 30

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭