机器学习(python)
文章平均质量分 70
a_achengsong
这个作者很懒,什么都没留下…
展开
-
奇异值分解及几何意义
PS:一直以来对SVD分解似懂非懂,此文为译文,原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰,实属不易。原文举了一个简单的图像处理问题,简单形象,真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解,比如 个性化推荐中应用了SVD,文本以及Web挖掘的时候也经常会用到SVD。英文原文:We recommend a singul转载 2016-07-26 18:50:53 · 1065 阅读 · 0 评论 -
ROC曲线以及评估指标F1-Score, recall, precision-整理版
最近一直在看ROC曲线,查阅了一些资料,并进行了整理,文章结尾有原资料链接。希望能自己和各位节约时间来找资料,花更多的时间来学习。ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣 。ROC曲线怎么来的呢,我们来看经典的混淆矩阵:ROC曲线一般的横轴是FPR,纵轴是F原创 2016-05-26 19:03:12 · 20326 阅读 · 0 评论 -
支持向量机SVM通俗理解(python代码实现)
这是第三次来“复习”SVM了,第一次是使用SVM包,调用包并尝试调节参数。听闻了“流弊”SVM的算法。第二次学习理论,看了李航的《统计学习方法》以及网上的博客。看完后感觉,满满的公式。。。记不住啊。第三次,也就是这次通过python代码手动来实现SVM,才让我突然对SVM不有畏惧感。希望这里我能通过简单粗暴的文字,能让读者理解到底什么是SVM,这货的算法思想是怎么样的。看之前千万不要畏惧,说到底就...原创 2017-05-11 02:42:08 · 87978 阅读 · 116 评论 -
KNN算法原理(python代码实现)
kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。 - 优点:精度高、对异常值不敏感、无数据输入假定。 - 缺点:计算复杂度高、空间复杂度高。 - 适用数据范围:数值型和标称原创 2017-03-14 22:42:28 · 2872 阅读 · 0 评论 -
逻辑回归logistic原理(python代码实现)
Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程,为最大化方程,利用牛顿梯度上升求解方程参数。优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高。使用数据类型:数值型和标称型数据。原创 2017-04-08 20:43:39 · 51797 阅读 · 24 评论 -
数据库中的空值与NULL的区别以及python中的NaN和None
数据库里面的”空值”有两种:空字符(“”)、空值(NULL)。 两种存储方式在数据库中都很常见,实际中根据业务或者个人习惯可以用这两种方式来存储“空值”。那这两种到底有什么区别,下面通过例子直接来展示原创 2017-03-06 21:41:50 · 34797 阅读 · 0 评论 -
PCA的数学原理
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。转载 2016-05-10 16:50:37 · 903 阅读 · 0 评论 -
贝叶斯
目录0. 前言 1. 历史 1.1 一个例子:自然语言的二义性 1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3.2 模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian Occam’s Razor) 3.3 最小描述长度原则转载 2016-05-23 11:28:44 · 1500 阅读 · 0 评论 -
机器学习与数据挖掘学习之路
机器学习与数据挖掘学习之路这是我个人在学习数据挖掘的时候,通过XMIND整理的学习过程。里面有几条路线,希望能给想学习数据挖掘同学提供一些帮助。不废话了,直接上图:原创 2016-06-23 10:39:44 · 2650 阅读 · 1 评论 -
bagging和boosting(python代码实现)
分类算法很多,有的效果比较好,有的效果稍微差点。 这里还有一种“新”分类算法,就是把多个分类器组合成一个分类器,主要有bagging 和boosting两种。 bagging算法:从原始数据中随机抽取n个样本,重复s次,于是就有个s个训练集,每个训练集都可以训练出一个分类器,最终生成s个分类器,预测结果将有这些分类器投票决定(选择分类器投票结果中最多的类别作为最后预测结果)。代表的有随机森林。原创 2017-05-16 22:54:10 · 16865 阅读 · 1 评论