机器学习基础算法
本来是为《机器学习实战》这本书写的笔记,但发现它有几点不适合入门者深入学习的地方,关键代码没有给出具体原理,而且介绍方式是对机器学习每个基础算法进行讲解,所以经常在学习几个章节之间会感觉到断层,需要其他一些地方自行理解。
Joovo
成事不说,遂事不谏,既往不咎。
展开
-
Adaboost 元算法改进分类性能
文章目录概述bagging 自举汇聚法Adaboost 元算法AdaBoost的一般流程更新规则:单层决策树`decision stump`基于 DS 建立 Adaboost完整代码,预测患有疝病的马是否能够存活概述元算法(meta-algorithm)或集成方法(ensemble method)的思路是对多个不同的算法进行组合,从而使答案尽量达到最优的一种方法。Adaboost 是一种非常优...原创 2018-11-22 01:34:10 · 1449 阅读 · 0 评论 -
SVM的分类超平面的数学推导
给出数学推导,每个向量的意义不再赘述转换原问题确定每个支持向量下的超平面:min y(w^T+b)/||w||间隔最大的为所求最优的超平面 max min y(w^T+b)/||w|| ,即求:arg maxwT,b{minx yi×(wTxi+b)1∣∣w∣∣},yi即labeliarg \space \underset{w^T,b} {max}原创 2018-10-25 01:31:02 · 1628 阅读 · 0 评论 -
线性回归 Python 语言实现
先占一个坑,最近几周在做一个比赛,十一月份回来补代码发上来注释掉免得又鸽了。。。。《机器学习实战》这本书有几点不适合入门者深入学习的地方是关键代码没有给出具体原理,而介绍方式是对机器学习每个基础算法进行讲解,所以经常在学习几个章节之间会感觉到断层,需要其他一些地方自行理解。线性回归这章后面的优化方式又讲的太多没讲清,我认为这是一个问题,博客也不好记。最好在一个专门的章节讲优化方式。公式推导见...原创 2018-10-24 18:36:32 · 429 阅读 · 0 评论 -
K-近邻算法(KNN)识别手写数字
k-近邻算法概述算法样本集及分类核心代码output is BKNN中的几个常见写法numpy.ndarraynumpy.ndarray.shapenumpy.tile(A,reps)k-近邻算法概述KNN算法采用测量不同特征值之间的距离方法进行分类,输出一个分类族群。主要工作原理:存在一个训练样本集,并且每个样本集中每个数据都存在标签,即数据和对应所属分类的...原创 2018-09-27 01:34:01 · 848 阅读 · 0 评论 -
决策树 ID3算法
决策树ID3算法概述决策树的构造信息熵,信息增益 entropy,infomation gainshannon entropy划分数据集去除dataset中的一列。递归构造决策树(分类器)处理最后一个节点递归建树shannon entropy去除dataset中的一列。递归建树实例-使用决策树预测隐形眼睛类型pickle模块存储决策树ID...原创 2018-09-29 20:57:08 · 888 阅读 · 0 评论 -
朴素贝叶斯分类器-文档分类
朴素贝叶斯理论概述条件概率用朴素贝叶斯进行文档分类文本分类代码文档词袋模型实例:朴素贝叶斯过滤垃圾邮件朴素贝叶斯理论概述朴素贝叶斯(navie bayes)是贝叶斯决策理论的一部分,只考虑最简单的假设,用 Python 将文本切分为词向量,然后利用词向量对文档分类。优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标...原创 2018-10-08 21:21:34 · 1116 阅读 · 0 评论 -
逻辑回归分类器(Logistic Regression)
目录Logistic回归概述Logistic回归分类器,Sigmoid 函数最优化理论确定回归系数(weight)梯度上升法数学推导随机梯度上升处理数据的缺失值实例:预测病马死亡率吃了概率论的亏逻辑回归(Logistic Regression)概述直观来说,用一条直线对一些现有的数据点进行拟合的过程,就叫做回归。Logistic分类的主要思想:根据现有数据...原创 2018-10-11 18:26:07 · 11392 阅读 · 1 评论 -
最大似然函数
补一下概率论的知识,不会还得翻书,稍微记一下几个点。1.MLE:最大似然估计2.确定最值点:∂∂θjL=0或∂∂θjlnL=0\frac{\partial}{\partial \theta_j}L=0 或 \frac{\partial}{\partial \theta_j}ln L=0∂θj∂L=0或∂θj∂lnL=03.最大似然估计的不变性:若θ^\hat{\theta}θ^是θ...原创 2018-10-12 10:41:24 · 1096 阅读 · 0 评论 -
线性回归系数,局部加权线性回归系数的数学推导
用最小二乘法Ordinary Least Square即通过最小化误差的平方和寻找数据的最佳函数匹配∑i=1m(y−xiTw)2\sum_{i=1}^{m}(y-x_i^Tw)^2i=1∑m(y−xiTw)2用矩阵表示:(y−Xw)T(y−Xw)(y-Xw)^T(y-Xw)(y−Xw)T(y−Xw)对这个式子求导,令其等于0,解出www即为最优解。结论为w^=(XTX)−1...原创 2018-10-18 18:09:20 · 2459 阅读 · 1 评论