机器学习
文章平均质量分 90
小白的机器学习之路。
繁城落叶
这个作者很懒,什么都没留下…
展开
-
ID3决策树中连续值的处理。
在之前的基于信息增益的ID3决策树介绍。介绍了ID决策树的一些内容,但是其中所使用的特征值都是离散的,但有些特征值可能不是离散而是连续属性,比如在周志华老师的西瓜书中西瓜数据集3.0就包含了密度和含糖率这两个特征值。本文以西瓜书中的知识点为基础来大致讲解一下如何处理计算这种连续属性。连续属性的介绍。在西瓜数据集3.0中出现了密度和含糖率这两种连续属性。在之前介绍过决策树的划分条件,是选取一个最合适的原创 2018-04-28 21:01:02 · 16677 阅读 · 13 评论 -
西瓜书中ID3决策树的实现。
在上一篇文章基于信息增益的ID3决策树介绍。中介绍了基本的决策树概念和基于信息增益的ID3决策树的计算。这篇文章中介绍一下如何使用Python实现一个ID3决策树,其中主要的代码来自于机器学习实战一书中,本人对其做了一些改动,增加了一些内容。决策树的伪代码。决策树的生成可以使用一个递归来实现,在西瓜书中给出了决策树的伪代码: 输入:训练集D=(x1,y1),(x2,y2),...,(xm,ym)原创 2018-03-20 20:42:32 · 10092 阅读 · 14 评论 -
基于信息增益的ID3决策树介绍。
这篇文章介绍一下一种常见的机器学习算法:决策树。这篇文章的主要是根据《机器学习》中的知识点汇总的,其中使用了《机器学习实战》的代码。关于决策树中基本信息以及公式更加推荐看一看《机器学习》这本书,书中不仅仅介绍了ID3决策树,而且还包含了C4.5以及CART决策树的介绍。所以本篇文章将使用西瓜书(也就是《机器学习》,以后都用西瓜书代替)中的数据集来进行测试。决策树的介绍。顾名思义,决策树这个名字可以分原创 2018-03-17 18:48:56 · 6031 阅读 · 0 评论 -
sklearn中的K-近邻分类使用。
在之前的文章中也介绍了KNN的算法原理,并且完成了两个案例进一步的理解了KNN。这都使用的是自己写的kNN分类器,scikit-learn包在机器学习和数据挖掘中是一个强大的包,其中就包含了许多的算法实现以及实用的功能。而在《Python数据挖掘入门与实践》这本书中,并没有像《机器学习》或者《机器学习实战》中的那样介绍原理或者自己实现某个算法,而是直接使用sklearn(scikit-learn)中原创 2018-01-28 19:48:11 · 2841 阅读 · 0 评论 -
简单明了的分类算法:OneR。
在之前介绍的kNN算法属于一种分类算法,之后会介绍的决策树也是属于分类算法。分类算法的目的就是根据训练集的特征将新的数据进行预测,当然能够找到特征之间的联系越多那么最后的分类结果也就应该越准确。但是有没有一个比较简单的算法,能够使用极少的特征就能够进行简单的分类呢?那就是OneR算法了。OneR算法介绍。OneR的全称为:One Rule,顾名思义也就是一条规则的意思。也就是说我们最终仅仅根据训练集原创 2018-01-12 17:25:44 · 4173 阅读 · 1 评论 -
使用k-近邻算法识别手写数字。
在之前的文章中介绍了k-近邻算法的原理知识并且用Python实现了一个分类器,而且完成了一个简单的优化约会网站配对效果的实例。在《机器学习实战》中有关kNN的后一部分内容就是一个手写识别系统,可以识别手写的0-9的数字。下面就基于这一章的内容完成这样一个手写数字识别系统。案例的描述以及流程介绍。既然我们明白了kNN算法是根据计算新数据和样本数据集之间的距离,然后找到距离最小的样本的分类作为新数据的分原创 2018-01-06 17:37:04 · 2149 阅读 · 0 评论 -
手写数字图片二值化转换为32*32数组。
最近课设外加生病,本来打算在上一篇机器学习使用k-近邻算法改进约会网站的配对效果。就打算写的一直没有时间。按照《机器学习实战》的流程,手写数字识别是kNN中的最后一部分,也是一个比较经典的案例。但是书中是直接使用32*32的二值化(只有1和0)数组进行计算的,书中也并没有讲解如何将手写数字转化为32*32的数组,这方面网上已经有很多资料了,所以只做了一个简单的二值化处理。主要的流程就是将图片打开之后原创 2018-01-03 09:54:49 · 8910 阅读 · 5 评论 -
使用k-近邻算法改进约会网站的配对效果。
在上一文中:初识K-近邻算法。已经介绍了kNN(k-近邻算法)的工作原理和代码实现,这次将讲述《机器学习实战》中的一个案例,使用kNN算法来改进越会网站的配对效果。案例的描述及kNN流程。海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选,但是她没有从中找到喜欢的人。经过一番总结,她发现曾交往过三中类型的人:不喜欢的人。魅力一般的人。极具魅力的人。尽管发现了上述规律原创 2017-12-19 22:41:04 · 1780 阅读 · 0 评论 -
初识K-近邻算法。
如今机器学习甚是流行,不抓紧学习就要被时代淘汰了。以下的内容大多来自《机器学习实战》和《机器学习》这两本书中,一本偏向实战、一本偏向理论。K-近邻(k-Nearest Neighbor,简称kNN)算法是《机器学习实战》中的第一个算法,比较简单易懂,本文中的内容更多取自于《机器学习实战》。k-近邻算法简述。在《机器学习中》的简述(也不算是定义,就是对kNN的一种描述)如下: 给定测试样本,基于某原创 2017-12-17 20:13:39 · 1176 阅读 · 0 评论