机器学习
飞鸟2010
这个作者很懒,什么都没留下…
展开
-
机器学习实战读书笔记(序)
这本机器学习实战,年前也曾经看过并实现了其中几章的内容,但不够系统,打算趁这个暑假,再系统的过上一遍,并做好笔记。1.机器学习能让我们自数据集中受到启发,即我们会利用计算机来彰显数据背后的真实含义。经典应用领域:人脸识别、手写数字识别、垃圾邮件过滤、购物网站产品推荐。机器学习是一个把无序的数据转换成有用信息的过程。2.监督学习:数据有类别信息和给定的目标值。在监督学习中,如果其主要任务是将实例数据划原创 2016-06-30 12:45:07 · 663 阅读 · 0 评论 -
Python机器学习(1)——异常点检测
本文主要介绍4种异常点检测方法,One-Class SVM(一分类向量机,非高斯分布)、EllipticEnvelope(基于高斯概率密度的异常点检测)、Isolation Forest(基于集成学习方法异常点检测)、LocalOutlierFactor(基于密度的局部异常因子),并基于同一数据集,对比不同检测方法的效果。实现代码如下所示:'''目标:比较One-Class SVM、Ellipt...原创 2018-05-31 17:06:48 · 7852 阅读 · 3 评论 -
机器学习实践之特征工程
特征工程是机器学习任务中非常核心的部分,特征工程质量的好坏直接影响着模型训练结果的好坏。常见的特征工程可以分为特征抽象、特征重要性评估、特征衍生和特征降维等几个方面。1.特征抽象特征抽象是指将原始数据抽象成算法(或模型)可以理解的数据。针对不同的数据类型,主要有如下特征抽象方法:(1)时间戳。主要是针对具有鲜明时间序列的特征数据,将源数据中的年月日格式(或其他格式)原创 2018-01-29 16:21:25 · 513 阅读 · 0 评论 -
机器学习实践中应避免的七种常见错误
转载链接 :http://blog.csdn.net/mmc2015/article/details/47322121在机器学习领域,每个给定的建模问题都存在几十种解法,每个模型又有难以简单判定是否合理的不同假设。在这种情况下,大多数从业人员倾向于挑选他们熟悉的建模算法,本文作者则认为,模型算法的假设并不一定适用于手头的数据;在追求模型最佳性能时,重要的是选择适合数据集(尤其是“大转载 2018-01-31 11:34:08 · 418 阅读 · 0 评论 -
机器学习的数学基础(2)——矩阵与线性代数
机器学习的各种算法除了和概率相关之外,还有以矩阵分解为基础的SVD、FM、LFM等。此外,在进行数据预处理时,特征工程对于模型的最终效果有很大影响,而特征的基础就是线性代数中的特征矩阵。本文就分享一些相关的要点。QR分解可以用于求解矩阵的特征值。原创 2017-12-25 22:00:38 · 500 阅读 · 0 评论 -
机器学习的数学基础(1)——常见的函数与分布
最近有在系统的补数学基础,接下来会分享一些机器学习中最常见的数学函数与分布的Python实现。1.对数函数一般地,函数y=logax(a>0,且a≠1)叫做对数函数,也就是说以幂(真数)为自变量,指数为因变量,底数为常量的函数,叫对数函数。1.1 简单的对数函数实现代码如下所示:import mathimport matplotlib.pyplot as pltif __name__ =="__m原创 2017-11-26 13:22:20 · 1046 阅读 · 0 评论 -
Machine Learning Yearning读书笔记(转载)
原文链接:http://blog.csdn.net/qq_24818761/article/details/53465940首先,非常感谢Andrew NG贡献的新书,本书总共大概50多章,昨天收到了1-12章(1-2页/章,总共23页)的手稿,让各位读者一睹为快。附上书的下载地址:1-12章:https://gallery.mailchimp.com/dc3a7ef4d750c0abfc192转载 2017-09-29 15:32:46 · 590 阅读 · 0 评论 -
机器学习之文本特征选择
1.基本概念1.1 定义从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”。特征选择是从特征集T={t_1,…,t_s}中选择一个真子集T’={t_1,…,t_(s’ )},满足(s≪s’)。其中,s为原始特征集的大小,s^’为选择后的特征集大小。选择的准则是经特征选择后能有效提高文本准确率。选择没有改变原始特征空间的性质,只是从原始特征空间中选择了一部分重要的特征,组成一个新的低维空间。原创 2017-02-15 20:51:15 · 2755 阅读 · 0 评论 -
机器学习模型评估方法介绍
1.基本概念介绍:1.1经验误差与泛化误差通常把分类错误的样本数占样本总数的比例称为错误率(error rate),即如果在m个样本中有a个样本分类错误,则错误率为E=a/m。相应地,1-a/m称为精度(accuracy),而把学习器的实际预测输出与样本的真实输出之间的差异称为误差(error)。学习器在训练集上的误差称为“训练误差(training error)”或“经验误差(empirical原创 2017-01-20 20:09:37 · 834 阅读 · 0 评论 -
机器学习实战学习笔记10——Apriori算法
1.Apriori概述1.1 Apriori介绍Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。该算法已经被广泛的应用到消费市场价格分析,入侵检测、电商购物推荐等领域。1.2 Apriori原理关联分析是一种在大规模数据集中寻找频繁项集和关联规则的任务。该算法的基本思想是: (1)首先找出所有的频集,这些项集出现的频繁性至少原创 2017-01-13 17:28:31 · 807 阅读 · 0 评论 -
机器学习实战学习笔记9——Logistic回归
1.logistic回归概述1.1 logistic回归介绍Logistic回归是一种广义的线性回归分析模型,是研究二分类观察结果y与一些影响因素(x_1,x_2,…,x_n)之间关系的一种多变量分析方法。通常研究某些因素条件下某个结果是否发生,比如医学中根据症状来判断病人是否患有某种疾病。1.2 Logistic回归原理Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式原创 2016-12-30 21:53:19 · 613 阅读 · 0 评论 -
机器学习实战学习笔记8——朴素贝叶斯
1.朴素贝叶斯概述1.1朴素贝叶斯介绍朴素贝叶斯(Naïve Bayesian)是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假设:给定目标值之间属性相互独立。1.2 朴素贝叶斯工作原理假设有一个数据集,由两类组成,对于每个样本的分类,都是已知的。现在有一个新的点new_point(x,y) ,其分类未知。我们可以用p1(x,y)来表示数据点(x,y)属于类别1的概率;原创 2016-12-28 20:41:06 · 549 阅读 · 0 评论 -
机器学习实战学习笔记7——Kmeans
1.Kmeans算法概述1.1 Kmeans算法介绍Kmeans是发现给定数据集的K个簇的算法。簇个数K是用户给定的,每一个簇通过其质心,即簇中所有点的中心来描述。1.2 Kmeans算法工作流程(1)创建K个质点作为起始质心; (2)当任意一个点的簇分配结果发生改变时: 对数据集中的每个数据点 对每个质心 计算质心与数据点之间的距离原创 2016-12-26 20:55:26 · 443 阅读 · 0 评论 -
机器学习实战学习笔记6——AdaBoost
1.AdaBoost概述1.1 AdaBoost介绍AdaBoost是一种迭代算法,其核心思想是针对同一训练集训练不同的分类器(弱分类器),然后把这些分类器集合起来,构成一个最终的强分类器。1.2 AdaBoost优缺点(1)优点:泛化错误率低,易编码,可以应用在大部分分类器上,无需参数调整。 (2)缺点:对离群点敏感。原创 2016-12-21 19:49:55 · 481 阅读 · 0 评论 -
机器学习实战学习笔记4——奇异值分解(SVD)
1.SVD算法概述1.1 SVD算法介绍 奇异值分解(Singular Value Decomposition)算法,可以将数据映射到低维空间,常用于从有噪声数据中抽取相关特征。1.2 SVD算法原理(1)先利用SVD从数据中构建一个主题空间; (2)然后在该空间下计算相似度;1.3 SVD算法优缺点(1)优点:简化数据,去除噪声,提高算法的结果 (2)缺点:数据的转换可能难以理解 (3原创 2016-11-30 21:25:34 · 1474 阅读 · 0 评论 -
机器学习实战学习笔记2——决策树算法
一、决策树算法概述原创 2016-07-23 11:32:44 · 855 阅读 · 0 评论 -
机器学习实战学习笔记1——KNN算法
一、KNN算法概述:1.KNN算法的工作原理是:(1)存在一个训练样本集,并且知道样本集中每一数据与所属分类的对应关系,即每个数据都存在分类标签。 (2)若此时输入不带标签的新数据之后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后用算法提取出样本集中特征最相似数据的分类标签。 (3)最后,选择K个(可根据实际情况自由选择不大于20的整数)最相似数据中出现次数最多的分类,作为...原创 2016-07-18 18:47:34 · 1250 阅读 · 0 评论