dinkwad-CSDN博客

原创面试算法（三）— EM算法

因为要看LDA的内容，需要看下EM算法，李航的EM算法一章的部分地方符号感觉过于抽象，应该具体些更好；先时通过三硬币模型引入EM算法概念，然后说了一下EM算法的流程，第二节公式推导了EM算法，第三节证明了EM算法的收敛性，随后讲了EM算法在GMM中的应用，最后介绍了GMM算法。总体来说EM基本思想还是很简单的，基于最大化似然函数一步步得到。EM算法原理总结这篇博客简洁明了的介绍了EM算法原

2018-01-07 21:14:58 1818

最近看了一下KNN相关内容，做下总结；大致过一下李航的书中KNN的讲解：统计学习方法中只讨论了分类K近邻法，先讲了KNN的算法流程，KNN的模型实际上是对特征空间做了一次划分，kd树中的每个节点对应了k维空间划分中的一个超矩形区域，KNN中用到了距离度量，使用的距离度量类型有Lp距离，这个明科夫斯基距离定义公式可以引申出曼哈顿距离，欧式距离和切比雪夫距离，随后讲到了K值的选择，过小则容易过拟合，过

2017-12-26 16:56:23 3286

原创面试算法（一）—朴素贝叶斯

朴素贝叶斯先大致过一遍最近看的朴素贝叶斯内容，李航的书先讲什么是先验概率、条件概率和后验概率；朴素贝叶斯的朴素是因为假设了特征条件独立，这样减少了大量的参数计算；而后介绍了如何由贝叶斯公式推出朴素贝叶斯的分类原理，主要在计算参数时候运用了极大似然估计，通过后验概率最大化得到正确的类别；这个后验概率最大化可以证明等价于期望风险最小化。随后介绍了平滑方法，防止条件概率为0的情况出现。下

2017-12-19 14:31:46 2106

转载交叉验证相关

1. cross-validation的结果稳定并不能说明没有过拟合。2. 确定是否过拟合，要看variance是否比较高。3. 判断variance是否比较高，要看test error是否比traing error明显高很多。4. test error和training error的比较可以用10轮交叉验证的test error与training error的均值进行。交叉验证与

2017-11-27 18:45:29 313

转载交叉验证的用处

以下内容转载自两篇博文，具体地址直接百度可以看到~1.交叉验证可以用来确定模型的参数一般来说准确率(accuracy)会用于判断分类(Classification)模型的好坏。#coding:utf-8from sklearn.datasets import load_iris # iris数据集from sklearn.model_selection import train

2017-11-27 17:37:16 3261

原创 sklearn中的交叉验证和数据划分

给定一个训练数据集合，寻找一个模型去fit这个训练数据，如果在全部的训练数据上训练获得模型并且在全部的训练数据上测试模型，则测试结果会很好；但是对于未知的数据泛化效果会很不好，即过拟合。所以需要在不同的数据集上训练和测试。import numpy as npfrom sklearn.model_selection import train_test_splitfrom sk

2017-11-27 16:38:28 4017

原创交叉验证

交叉验证写的不错的一些文章https://en.wikipedia.org/wiki/Cross-validation_(statistics)http://scikit-learn.org/stable/modules/cross_validation.htmlhttps://www.cnblogs.com/sddai/p/5696834.htmlhttp://www

2017-11-27 11:02:21 228

原创闲聊xgboost基本原理

111111111111

2017-09-06 16:49:15 292

原创感知机

今天看了下统计学习方法里面的第二章感知机，写一些个人总结。准备接下来重温一下SVM，公式推导放在了F盘勿忘。感知机是一个针对线性可分数据集的线性二分类模型，它的模型就是就是一个分离超平面函数外面套上一个符号函数，这个分离超平面将全部的训练数据分为正类和负类，其实这个这个分离超平面的形式类似于多变量线性回归的那个样子，模型选好了过后再来看损失函数的选取，损失函数如果选择是误分类点总数，则其不可导，不易

2017-08-10 22:03:46 397

原创 coursera机器学习 week1&week2&week3 总结

最近两个礼拜看了下2017年7月26日开课的coursera的机器学习课程，学到了第三周，打算大致总结一下前三周的课程，基本不会列公式，白话记叙，个人总结和心得而已。引言部分先介绍机器学习的定义，旧的定义就不说了，比较新的定义是Tom Mitchell说的：一个程序被认为能从经验E中学习，从而解决任务T，同时利用度量值P衡量其性能；当且仅当有了经验E后，其处理任务T的性能度量值P有所提升。机器学习主

2017-08-10 14:52:37 791

原创关联规则与序列模式

关联规则挖掘的的目标是寻找达到某种程度联系的事物集合，再由其产生相关的关联规则。它并不考虑事物发生的先后顺序。先作出下述定义：I ={i1,i2, …,im}是若干项目集合，包含k个项目的集合称为k项集；T= (t1,t2, …,tn)是若干事务集合。其中ti ⊆I。一个关联规则可表述成如下蕴含式形式：X→Y，其中X⊂I,

2017-08-02 15:43:45 3612 1

原创 Drools推理引擎

图片无法显示可参考链接： http://note.youdao.com/share/?id=6f8e6c9ee12db3f9a02997eef9b056ed&type=note#/1.Drools简介很多系统的业务规则需要经常修改，如果将这些规则直接编写到代码中，则业务规则一旦改变就需要修改代码，重新编译打包整个代码，而且业务规则也越来越复杂，且经常需要实时进行修改，故可将这些可变的业务规则抽

2017-08-02 15:39:55 2735

原创 Datalog初步理解

去年看的关于datalog写的一篇读书笔记，图片可能无法显示，具体可以查看云笔记的链接分享： http://note.youdao.com/share/?id=270970f9e5d6f35babba3d022b436fc8&type=note#/1 介绍关系代数实际对应于一阶逻辑的子集，其中的操作数限制为有限关系，没有递归和否定的Horn子句。实现递归查询有多种方法，从逻辑编程的角度来看

2017-08-02 15:35:56 13038

原创线性回归中梯度下降的个人理解

最近在学习机器学习一些基础课程，想写一些文章记录一下自己对某些概念的理解，但是如果公式太多编辑太耗费时间，所以决定白话方式记录自己的个人理解，有错勿怪！机器学习主要有监督学习和无监督学习两大类，当然还有强化学习等等，监督学习主要就是分类和回归，线性回归属于回归，线性回归又有单变量线性回归和多变量线性回归，单变量线性回归顾名思义即找个 y=k*x+b 拟合一堆只有一个输入和一个输出的训练数据，然后得到

2017-08-02 10:58:53 789

转载矩阵求导（二）

矩阵求导术（下）转自：https://zhuanlan.zhihu.com/p/248639774 个月前本文承接上篇 https://zhuanlan.zhihu.com/p/24709748，来讲矩阵对矩阵的求导术。使用小写字母x表示标量，粗体小写字母x\boldsymbol{x} 表示列向量，大写字母X表示矩阵。矩阵对矩阵的求导采用了向量化的思路，常应用于二阶方法求解优化问题。首先来琢磨一

2017-05-31 16:47:22 8023

转载矩阵求导（一）

矩阵求导术（上）矩阵求导的技术，在统计学、控制论、机器学习等领域有广泛的应用。鉴于我看过的一些资料或言之不详、或繁乱无绪，本文来做个科普，分作两篇，上篇讲标量对矩阵的求导术，下篇讲矩阵对矩阵的求导术。本文使用小写字母x表示标量，粗体小写字母x\boldsymbol{x} 表示向量，大写字母X表示矩阵。首先来琢磨一下定义，标量f对矩阵X的导数，定义为∂f∂X:=[∂f∂Xij]\frac{\parti

2017-05-31 14:08:42 21877 2

原创机器学习学习笔记（二）

线性模型给定 dd 个属性描述的示例 x=(x1,x2,…,xd)Tx = (x_1,x_2,…,x_d)^T ，其中 xix_i 是 xx 在第 ii 个属性上的取值，线性模型试图学习一个通过属性的线性组合的线性组合来进行预测的函数，即 f(x)=w1x1+w2x2+…+wdxd+bf(x)=w_1x_1+w_2x_2+…+w_dx_d+b 一般用向量形式写成 f(x)=wTx+bf(x)=w^

2017-05-14 15:58:59 316

原创机器学习学习笔记（一）

本系列文为周志华教授的《机器学习》一书的个人简要笔记，供日后遗忘时翻阅绪论1.引言机器学习主要内容是研究从数据中产生模型的算法（学习算法），有了这类算法，将经验数据提供给它，学习算法就能基于这些数据产生模型，面对新的情况时模型会提供相应的判断。2.基本术语数据集示例/样本/特征向量属性/特征 ——属性值 ——属性空间/样本空间/输入空间假定一个具有m个示例的数据集，每个示例由d个属性描述。

2017-05-12 11:33:29 547

原创统计学习方法笔记（一）

统计学习方法概论本系列文为李航博士的《统计学习方法》一书的个人简要笔记，供日后遗忘时翻阅1统计学习统计学习/统计机器学习定义：计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析统计学习目标：考虑学习什么样的模型和如何学习模型，使得模型能对数据进行准确的预测与分析，同时也要考虑尽可能地提高学习效率统计学习组成：监督学习、非监督学习、半监督学习和强化学习等监督学习定义：从给定的

2017-05-10 18:42:08 837

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B斜体 Ctrl + I 引用 Ctrl +

2017-05-03 10:19:25 217

dinkwad的博客