Machine Learning
文章平均质量分 74
积微成著
每一个你不满意的现在,都有一个你没有努力的曾经。
展开
-
COURSERA机器学习笔记——机器学习介绍
什么是机器学习对于机器学习,并没有一个一致认同的定义,一个比较古老的定义是由 Arthur Samuel 在 1959年给出的: “机器学习研究的是如何赋予计算机在没有被明确编程的情况下仍能够学习的能力。(Field of study that fives computers the ability to learn without being explicitly programmed.)”原创 2016-09-11 15:31:52 · 718 阅读 · 0 评论 -
算法复杂度分析
进行算法复杂度分析的原因:预测算法所需要的资源: 计算时间(CPU消耗)内存空间(RAM消耗)通信时间(带宽消耗)预测算法的运行时间: 在给定输入规模时,所执行的基本操作数量或称为算法复杂度(Algorithm Complexity)如何衡量算法复杂度:内存(Memory)时间(Time)指令的数量(Number of Step)特定操作的数量: 磁盘访问数量网络包数量原创 2017-03-06 21:40:59 · 447 阅读 · 0 评论 -
COURSERA机器学习笔记——归一化(一)
逻辑回归(LOGISTIC REGRESSION)分类问题在分类问题中,我们尝试预测的是:结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈等等。从二元的分类问题开始讨论: 将因变量(dependant variable)可能属于的两个类分别称为负向类(negative class)和正向类(positive class),则原创 2016-09-14 14:26:13 · 1024 阅读 · 0 评论 -
如何选择机器学习算法
英文原文:Choosing a Machine Learning Classifier 译文原文:如何选择机器学习算法 How do you know what machine learning algorithm to choose for your classification problem? Of course, if you really care about accuracy, yo转载 2016-12-13 14:41:39 · 498 阅读 · 0 评论 -
机器学习的特征工程
原文地址引言在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。 特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。特征工程的重要意义数据特征会直接影响你使用的预测模型和实现的预测结果。准备和选择的特征越好,则实现的结果越好。 影响预测结转载 2016-11-06 17:41:04 · 1980 阅读 · 0 评论 -
KNN算法实战——手写数字识别
KNN算法简介KNN算法的简介可参考:K-近邻算法(KNN)手写数字识别kNN算法主要被应用于文本分类、相似推荐,本文将描述一个分类的例子。 何为手写识别?可参考维基百科介绍:手写识别数据下载:手写识别数据数据说明:每个手写数字已经事先处理成32*32的二进制文本,存储格式为txt文件。分为训练样本和测试样本:“trainingDigits”、“testDigits”。编程实现步骤: 将每原创 2016-09-26 19:36:26 · 2790 阅读 · 1 评论 -
COURSERA机器学习笔记——归一化(二)
过拟合问题(THE PROBLEM OF OVERFITTING)通过学习得到的假设,可能能够非常好地适应训练集(代价函数可能几乎为 0),但是可能会不能推广到新的数据。 下图是一个回归问题的例子: 第一个模型是一个线性模型,低度拟合,不能很好地适应我们的训练集。这个问题的另一个术语叫做高偏差(high bias);第三个模型是一个四次方的模型,过度拟合,虽然能非常好地适应我们的训练集但在新原创 2016-09-25 18:14:45 · 1221 阅读 · 0 评论 -
机器学习经典算法详解及Python实现--决策树(Decision Tree)
(一)认识决策树1,决策树分类原理决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。近来的调查表明决策树也是最经常使用的数据挖掘算法,它的概念非常简单。决策树算法之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的转载 2016-08-25 14:35:27 · 3549 阅读 · 0 评论 -
K-近邻算法(KNN)
概述简单地说,K-近邻算法(K-Nearest-Neighbors Classification)采用测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高使用数据范围:数值型和标称型工作原理:要确定测试样本属于哪一类,就寻找所有训练样本中与该测试样本“距离”最近的前K个样本,然后看这K个样本大部分属于哪一类,那么就认为这个测试样本原创 2016-08-20 08:55:03 · 5662 阅读 · 0 评论 -
COURSERA机器学习笔记——多变量线性回归
多维特征 ( MULTIPLE FEATURES)目前为止,我们探讨了单变量/特征的回归模型,现在我们对房价模型增加更多的特征,例如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为(x1x_{1},x2x_{2},…xnx_{n})。 增添更多特征后,我们引入一系列新的注释:n 代表特征的数量x(i)x^{\left ( i \right) }代表第 i 个训练实例,是特征矩阵中的原创 2016-09-11 17:38:15 · 992 阅读 · 0 评论 -
COURSERA机器学习笔记——单变量线性回归
模型表达(MODEL REPRESENTATION)以之前的房屋交易问题为例,假使我们回归问题的训练集(Training Set)如下表所示: 我们将要用来描述这个回归问题的标记如下:m 代表训练集中实例的数量x 代表特征/输入变量y 代表目标变量/输出变量(x,y) 代表训练集中的实例(x (i) ,y (i) ) 代表第 i 个观察实例h 代表学习算法的解决方案或函数也称为假设原创 2016-09-11 16:09:29 · 546 阅读 · 0 评论 -
Logistic回归
Logistic 回归优点: 易于理解,计算量不大缺点 容易欠拟合,精度不高适用数据类型: 数值型、标称型Sigmoid函数Sigmoid函数: Sigmoid函数的输入记为z,由下面公式得出: 式中,向量x为分类器的输入数据,向量w为最佳回归系数。最佳回归系数的确定——梯度上升法思想:要找到某函数的最大值,最好的方法就是沿着该函数的梯度方向探寻。公式:梯度记为,则函数原创 2017-03-15 21:57:49 · 641 阅读 · 0 评论