机器学习/模式识别
文章平均质量分 93
专注机器学习,人工智能基础学习
CAPTIAN船长
19910825
展开
-
数据库分库分表
提起分库分表,对于大部分服务器开发来说,其实并不是一个新鲜的名词。随着业务的发展,我们表中的数据量会变的越来越大,字段也可能随着业务复杂度的升高而逐渐增多,我们为了解决单表的查询性能问题,一般会进行分表操作。图片来自 包图网提起分库分表,对于大部分服务器开发来说,其实并不是一个新鲜的名词。随着业务的发展,我们表中的数据量会变的越来越大,字段也可能随着业务复杂度的升高而逐渐增多,我们为了解决单表的查询性能问题,一般会进行分表操作。同时我们业务的用户活跃度也会越来越高,并发量级不断加大,那么可能原创 2022-02-28 23:24:15 · 758 阅读 · 0 评论 -
留一法(Leave-One-Out)与确定性
分类器我们把每个数据集分成两个子集一个用于构建分类器,该数据集称为训练集(training set)另一个数据集用于评估分类器,该数据集称为测试集(test set)训练集和测试集是数据挖掘中的常用术语。10折交叉验证(10-fold Cross Validation)2折交叉验证我们将数据划分成2部分,每次利用2/3的数据训练而在其余1/3的数据上进行测试。因此,整个过程看起来...原创 2020-01-27 23:57:22 · 14584 阅读 · 3 评论 -
加法的实现-不用加减乘除运算
来源于一个笔试题目笔试面试题目都很有意思…. 笔试题如下: 不使用加减乘除,计算一个数字的7倍位运算相信你第一个想到的方法就是位运算吧,没错,除了位运算,也没有其他办法了吧。原创 2016-10-22 23:52:46 · 1199 阅读 · 0 评论 -
Huffman树及其编码实现
一个拥有n个待编码的字符串,其哈夫曼树具有 2n-1个节点。哈夫曼编码是哈夫曼树的一个应用。哈夫曼编码应用广泛,如JPEG中就应用了哈夫曼编码。 首先介绍什么是哈夫曼树。哈夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的 路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。树的带权路径原创 2015-09-04 10:01:26 · 792 阅读 · 0 评论 -
卡特兰数总结
令h(1)=1,h(0)=1,catalan数(卡特兰数)满足递归式:h(n)= h(0)*h(n-1)+h(1)*h(n-2) + ... + h(n-1)h(0) (其中n>=2)另类递归式:h(n)=((4*n-2)/(n+1))*h(n-1);C++实现递归程序如下:#include double Katelan(int m);double K原创 2015-09-02 15:40:13 · 776 阅读 · 0 评论 -
机器学习中的数据集合
数据集分类在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set) 验证集(validation set) 测试集(test set)。训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。原创 2016-05-22 10:51:36 · 2009 阅读 · 1 评论 -
KM算法求带权二分图的最大匹配(完备匹配)
1.基础知识普及二分图的概念二分图又称作二部图,是图论中的一种特殊 模型。 设G=(V,{R})是一个无向图。如顶点集V可分 割为两个互不相交的子集,并且图中每条边 依附的两个顶点都分属两个不同的子集。则图G成为二分图。 通俗来讲,二分图指的是这样一种图:其所有的顶点分成两个集合M和N,其中M或N中任意两个在同一集合中的点都不相连。二分图匹配是指求出一组边,其中的顶点分别在两个集合中,并且任意两条原创 2016-02-18 13:09:07 · 6749 阅读 · 2 评论 -
EM(Expectation Maximization)算法
在求解HMM的学习问题、确立高斯混合模型参数用的都是EM算法。原创 2016-01-14 18:32:49 · 805 阅读 · 0 评论 -
关于数据降维的一些经典算法
数据降维0 前言降维方法可分为有监督降维方法、半监督降维方法、无监督降维方法。LDA、Fisher分析、MFA、MMC、PCA、LPP原创 2016-01-21 17:58:02 · 8441 阅读 · 0 评论 -
MatLab Kmeans聚类
MatLab Kmeans聚类聚类与分类 分类算法是给一个数据,然后判断这个数据属于已分好的类中的具体哪一类。 聚类算法是给一大堆原始数据,然后通过算法将其中具有相似特征的数据聚为一类,原数据可能被分为多类。原创 2015-12-20 11:30:31 · 22877 阅读 · 9 评论 -
SVD应用的经典例子
Singular Value Decomposition (SVD) Tutorial转载 2015-12-17 16:32:05 · 3745 阅读 · 0 评论 -
谱聚类算法及图分割算法
谱聚类算法由于其算法流程简单、计算简洁与 Kmeans 算法相比不容易陷入局部最优解,能够对高维度、非常规分布的数据进行聚类。谱聚类算法是利用图谱理论来进行算法分析,思想是把数据分析问题看成是图的最优分割问题。转载 2015-11-30 11:45:03 · 12664 阅读 · 0 评论 -
HMM模型 MEMM模型 CRF模型
这三个模型都可以用来做序列标注模型。但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移 概率和表现概率建立联合概率,统计时统计的是条件概率。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化,而CRF模型中,统计了全局概率,在 做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。举个例转载 2015-09-12 09:41:02 · 1739 阅读 · 0 评论 -
数据挖掘中正确率、召回率和F值、查全率和查准率
正确率、召回率和F值是在鱼龙混杂的环境中,选出目标的重要评价指标。 不妨看看这些指标的定义先:正确率 = 正确识别的个体总数 / 识别出的个体总数召回率 = 正确识别的个体总数 / 测试集中存在的个体总数F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,原创 2015-09-12 09:08:02 · 6113 阅读 · 0 评论 -
贝叶斯分类
转自:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/目录0. 前言 1. 历史 1.1 一个例子:自然语言的二义性 1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3.2 模型比较理论(Model Compa转载 2015-07-18 17:48:06 · 2072 阅读 · 0 评论 -
协方差矩阵
统计学的基本概念学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合X={X1,…,Xn},依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。均值:X¯=∑ni=1Xin标准差:s=∑ni=1(Xi−X¯)2n−1−−−−−−−−−−−−−√方差:转载 2015-06-06 17:52:19 · 1020 阅读 · 0 评论 -
协方差矩阵与主成分分析(PCA)
转自:http://pinkyjie.com/2011/02/24/covariance-pca/上次谈了协方差矩阵之后,感觉写这种科普性文章还不错,那我就再谈一把协方差矩阵吧。上次那篇文章在理论层次介绍了下协方差矩阵,没准很多人觉得这东西用处不大,其实协方差矩阵在好多学科里都有很重要的作用,比如多维的正态分布,再比如今天我们今天的主角——主成分分析(Principal Compone转载 2015-06-06 17:53:57 · 25029 阅读 · 2 评论 -
隐马尔科夫模型(2)
隐马尔科夫模型1、马尔科夫过程首先回顾一下马尔科夫过程:,其特点是,当过程在时刻 T0所处的状态为已知的条件下,过程在 T 时刻(T>T0)所处的状态仅与时刻T0 有关,而与过程在T0之前的时刻无关系。 马尔科夫模型有两个假设: -系统在时刻t的状态只与时刻t-1处的状态相关;(也称为无后效性) -状态转移概率与时间无关;(也称为齐次性或时齐性)下图是马尔科夫过程得一个图 2、隐马尔科夫模型原创 2015-03-18 20:59:16 · 2202 阅读 · 0 评论 -
神经网络学习(1)
推荐一个小白人工智能入门教程,分享给各位同学,零基础教程,简单通俗易懂,风趣幽默,由浅及深,这里可以直达:人工智能教程关注公众号,获取更多学习资源: mushiwords第0节、引例 本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_...原创 2015-04-14 22:42:39 · 7197 阅读 · 1 评论