机器学习实战
小松悦读会 | kevinelstri
小松悦读会,用心阅读,执着专注!
展开
-
【机器学习实战02】手写识别系统
利用k-近邻分类器来进行手写识别系统的构造: 这里构造器只能识别数字0-9,需要识别的数字已经被处理成文本格式。 目录trainingDigits中包含大约2000个例子,每个数字大约有200个样本;目录testDigits中包含大约900个测试数据。 使用目录trainingDigits中的数据训练分类器,使用目录testDigits中的数据测试分类器的效果。原创 2016-08-15 15:38:40 · 1950 阅读 · 1 评论 -
【机器学习实战02】使用k-近邻算法改进约会网站的配对效果
程序流程:1.收集数据:提供文本文件2.准备数据:使用Python解析文本文件3.分析数据:使用Matplotlib画二维扩散图4.测试算法:使用提供的部分数据作为测试样本。测试样本和非测试样本的区别在于:测试样本是已经完成分类的数据,如果预测分类与实际类别不同,则标记为一个错误5.使用算法:产生简单的命令行程序,然后可以输入一些特征数据以判断结果本样本共有三种特征:每年获得的飞行常客里程数:The原创 2016-08-15 14:56:36 · 733 阅读 · 0 评论 -
【机器学习实战02】k-近邻算法
1、k-近邻算法概述 k-近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 适用数据范围:数值型和标称型2、python代码实现(1)创建数据from numpy import * #科学计算包NumPyimport operator #运算符模块def createDat原创 2016-08-12 14:26:08 · 1532 阅读 · 0 评论 -
【机器学习实战01】机器学习基础
机器学习思维导图:原创 2016-08-15 13:27:24 · 698 阅读 · 0 评论 -
【机器学习实战07】SVM--LibSVM工具包的使用
LIBSVM是台湾大学林智仁(LinChih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验(Cross Validation)的功能。原创 2016-08-22 19:22:01 · 5363 阅读 · 0 评论 -
【机器学习实战07】理解SVM
http://blog.csdn.net/shijing_0214/article/details/50982602原创 2016-08-22 19:41:21 · 668 阅读 · 0 评论 -
【机器学习实战06】贝叶斯网络
1、概率知识条件概率:事件A在另外一个事件B已经发生条件下的发生概率。表示:P(A|B)记作 “在B条件下A的概率”乘法定理:设P(A)>0,则有 全概率公式:如果事件B1,B2,B3….Bn构成一个完备事件组,即两两互不相容,其和为全集,且P(Bi)>0,则对任一事件A来说:原创 2016-08-21 18:03:43 · 2403 阅读 · 2 评论 -
【机器学习实战05】PCA降维算法
1、数据简化使得数据更易使用 降低很多算法的计算开销 去除噪声 使得结果易懂2、降维方法 1:主成分分析法( PrincipalComponentAnalysis, P C A ) 在 PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具原创 2016-08-20 15:38:58 · 1008 阅读 · 0 评论 -
【机器学习实战04】k-均值聚类算法
1、聚类定义 聚类是一种无监督学习,它将相似的对象归为一类,簇内的对象越相似,聚类的效果越好。k-均值首先发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。2、开发机器学习应用程序的步骤 (1)收集数据:收集各种样本数据,为了节省时间,可以使用公开的可用数据源 (2)准备输入数据:确保数据格式符合要求,本书采用的格式是Python语言的List。 (3)数据分原创 2016-08-20 14:38:48 · 2555 阅读 · 0 评论 -
【机器学习实战03】决策树
1、基本概念 决策树是一类常见的机器学习方法,决策树是基于树结构来进行决策的。 一般的,一颗决策树包含一个根节点,若干个内部节点和若干个叶节点,叶节点对应于决策结果,其他每个节点则对应于一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集,从根节点到每个叶节点的路径对应了一个判定测试序列。2、决策树算法 (1)计算信息熵from math im原创 2016-08-15 16:26:46 · 890 阅读 · 1 评论 -
28款GitHub最流行的开源机器学习项目
28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首 readygo 浏览 673 2016-04-18 20:31:12机器学习开源githubTensorFlow摘要现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习得到了十分广泛的应用,如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、DNA序列测序、战略游戏和机器人等方面。 云栖社区转载 2017-03-09 13:27:54 · 681 阅读 · 0 评论