《机器学习实战》读书笔记
文章平均质量分 72
详细记录了读《机器学习实战》过程中遇到的问题以及解决办法。并包括方法总结,代码注释,工具介绍和心得体会等。
imxietx
这个作者很懒,什么都没留下…
展开
-
《机器学习实战》读书笔记6:朴素贝叶斯源码
下面是经过我注释并添加 docstring 的朴素贝叶斯分类器源码from numpy import *def loadDataSet(): ''' () -> list of lists, list Return a list of lists which are some posts in a forum and a list containing the correspo原创 2017-02-23 23:20:47 · 1384 阅读 · 0 评论 -
《机器学习实战》读书笔记5:朴素贝叶斯分类器的原理
贝叶斯定理我们知道:P(A∩B)=P(A|B)×P(B)=P(B|A)×P(A)P(A\cap B) = P(A|B)\times P(B) = P(B|A)\times P(A) 所以有:P(A|B)=P(B|A)×P(A)P(B)P(A|B) = \frac{P(B|A)\times P(A)}{P(B)} 这就是贝叶斯定理。贝叶斯分类器的原理假如我们要为一个疾病诊断系统构建一个贝叶斯分原创 2017-02-12 14:31:57 · 1803 阅读 · 0 评论 -
《机器学习实战》读书笔记4:决策树源码分析
本文对《机器学习实战》第三章——决策树的源码进行了全面的分析和解释。由于个人觉得作者的代码变量命名具有一定的迷惑性,使读者容易混淆,所以部分代码可能作了修改。本文只包含了构建决策树、用决策树分类、序列化决策树的代码。不包括画图的代码程序清单3-0:创建简单的数据集这部分是书上的python交互命令创建数据集的代码,写成函数,不用每次都输入一长传命令:def createDataSet():原创 2017-02-07 23:27:24 · 1926 阅读 · 2 评论 -
《机器学习实战》读书笔记3:信息熵和信息增益
点进来的读者肯定都看过《机器学习实战》第三章-决策树,所以就不罗嗦啦。上一篇文章实在是太罗嗦了。:)信息熵(或香浓熵): Entropy首先举个例子:假如美国参众两院要弹劾川普,通过提前走访调查议员的想法,得出结果有80%的可能性川普被弹劾,20%的可能性川普不被弹劾。那么我们知道了川普很可能会被弹劾。好了,我们待会儿再来说川普。现在给出信息的计算公式: info(xi)=−log2p(xi)i原创 2017-02-06 17:07:04 · 2906 阅读 · 0 评论 -
《机器学习实战》读书笔记2:K-近邻(kNN)算法 & 源码分析
声明:文章是读书笔记,所以必然有大部分内容出自《机器学习实战》。外加个人的理解,另外修改了部分代码,并添加了注释1、什么是K-近邻算法?简单地说,k-近邻算法采用测量不同特征值之间距离的方法进行分类。不恰当但是形象地可以表述为近朱者赤,近墨者黑。它有如下特点:优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型2、K-近邻算法的工作原理:存原创 2017-02-03 00:43:27 · 4374 阅读 · 1 评论 -
《机器学习实战》读书笔记1:NumPy的安装及简单用法
我以前学习 machine learning,个人觉得应该算是小打小闹,只是简单地了解了一下基本原理,然后改改现成的 matlab 代码。《机器学习实战》这本书已经入差不多两个多月了,但是因为期末考试,到现在基本还没开动。今天是除夕,闲着没事,就把一些基本必需知识和工具做个总结。一、NumPy是啥?就一句话:NumPy是一个科学计算库,用起来简单方便,是一个用Python处理数据的绝佳工具。二、Nu原创 2017-01-27 18:10:15 · 1587 阅读 · 1 评论