Python机器学习(1)——异常点检测

本文主要介绍4种异常点检测方法,One-Class SVM(一分类向量机,非高斯分布)、EllipticEnvelope(基于高斯概率密度的异常点检测)、Isolation Forest(基于集成学习方法异常点检测)、LocalOutlierFactor(基于密度的局部异常因子),并基于同一数据集...

2018-05-31 17:06:48

阅读数 2825

评论数 0

机器学习实践中应避免的七种常见错误

转载链接 :http://blog.csdn.net/mmc2015/article/details/47322121 在机器学习领域,每个给定的建模问题都存在几十种解法,每个模型又有难以简单判定是否合理的不同假设。在这种情况下,大多数从业人员倾向于挑选他们熟悉的建模算法,本文作者则...

2018-01-31 11:34:08

阅读数 176

评论数 0

机器学习实践之特征工程

特征工程是机器学习任务中非常核心的部分,特征工程质量的好坏直接影响着模型训练结果的好坏。 常见的特征工程可以分为特征抽象、特征重要性评估、特征衍生和特征降维等几个方面。 1.特征抽象 特征抽象是指将原始数据抽象成算法(或模型)可以理解的数据。针对不同的数据类型,主要有如下特征...

2018-01-29 16:21:25

阅读数 231

评论数 0

机器学习的数学基础(2)——矩阵与线性代数

机器学习的各种算法除了和概率相关之外,还有以矩阵分解为基础的SVD、FM、LFM等。此外,在进行数据预处理时,特征工程对于模型的最终效果有很大影响,而特征的基础就是线性代数中的特征矩阵。本文就分享一些相关的要点。QR分解可以用于求解矩阵的特征值。

2017-12-25 22:00:38

阅读数 261

评论数 0

机器学习的数学基础(1)——常见的函数与分布

最近有在系统的补数学基础,接下来会分享一些机器学习中最常见的数学函数与分布的Python实现。1.对数函数一般地,函数y=logax(a>0,且a≠1)叫做对数函数,也就是说以幂(真数)为自变量,指数为因变量,底数为常量的函数,叫对数函数。1.1 简单的对数函数实现代码如下所示:import...

2017-11-26 13:22:20

阅读数 405

评论数 0

Machine Learning Yearning读书笔记(转载)

原文链接:http://blog.csdn.net/qq_24818761/article/details/53465940首先,非常感谢Andrew NG贡献的新书,本书总共大概50多章,昨天收到了1-12章(1-2页/章,总共23页)的手稿,让各位读者一睹为快。 附上书的下载地址: 1-12章...

2017-09-29 15:32:46

阅读数 295

评论数 0

机器学习之文本特征选择

1.基本概念1.1 定义从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”。特征选择是从特征集T={t_1,…,t_s}中选择一个真子集T’={t_1,…,t_(s’ )},满足(s≪s’)。其中,s为原始特征集的大小,s^’为选择后的特征集大小。选择的准则是经特征选择后能有效提高文本准...

2017-02-15 20:51:15

阅读数 2012

评论数 0

机器学习模型评估方法介绍

1.基本概念介绍:1.1经验误差与泛化误差通常把分类错误的样本数占样本总数的比例称为错误率(error rate),即如果在m个样本中有a个样本分类错误,则错误率为E=a/m。相应地,1-a/m称为精度(accuracy),而把学习器的实际预测输出与样本的真实输出之间的差异称为误差(error)。...

2017-01-20 20:09:37

阅读数 568

评论数 0

机器学习实战学习笔记10——Apriori算法

1.Apriori概述1.1 Apriori介绍Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。该算法已经被广泛的应用到消费市场价格分析,入侵检测、电商购物推荐等领域。1.2 Apriori原理关联分析是一种在大规模数据集中...

2017-01-13 17:28:31

阅读数 431

评论数 0

机器学习实战学习笔记9——Logistic回归

1.logistic回归概述1.1 logistic回归介绍Logistic回归是一种广义的线性回归分析模型,是研究二分类观察结果y与一些影响因素(x_1,x_2,…,x_n)之间关系的一种多变量分析方法。通常研究某些因素条件下某个结果是否发生,比如医学中根据症状来判断病人是否患有某种疾病。1.2...

2016-12-30 21:53:19

阅读数 256

评论数 0

机器学习实战学习笔记8——朴素贝叶斯

1.朴素贝叶斯概述1.1朴素贝叶斯介绍朴素贝叶斯(Naïve Bayesian)是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假设:给定目标值之间属性相互独立。1.2 朴素贝叶斯工作原理假设有一个数据集,由两类组成,对于每个样本的分类,都是已知的。现在有一个新的点ne...

2016-12-28 20:41:06

阅读数 360

评论数 0

机器学习实战学习笔记7——Kmeans

1.Kmeans算法概述1.1 Kmeans算法介绍Kmeans是发现给定数据集的K个簇的算法。簇个数K是用户给定的,每一个簇通过其质心,即簇中所有点的中心来描述。1.2 Kmeans算法工作流程(1)创建K个质点作为起始质心; (2)当任意一个点的簇分配结果发生改变时: 对数据集中...

2016-12-26 20:55:26

阅读数 253

评论数 0

机器学习实战学习笔记6——AdaBoost

1.AdaBoost概述1.1 AdaBoost介绍AdaBoost是一种迭代算法,其核心思想是针对同一训练集训练不同的分类器(弱分类器),然后把这些分类器集合起来,构成一个最终的强分类器。1.2 AdaBoost优缺点(1)优点:泛化错误率低,易编码,可以应用在大部分分类器上,无需参数调整。 ...

2016-12-21 19:49:55

阅读数 294

评论数 0

机器学习实战学习笔记4——奇异值分解(SVD)

1.SVD算法概述1.1 SVD算法介绍 奇异值分解(Singular Value Decomposition)算法,可以将数据映射到低维空间,常用于从有噪声数据中抽取相关特征。 1.2 SVD算法原理(1)先利用SVD从数据中构建一个主题空间; (2)然后在该空间下计算相似度;1.3 SV...

2016-11-30 21:25:34

阅读数 772

评论数 0

机器学习实战学习笔记2——决策树算法

一、决策树算法概述

2016-07-23 11:32:44

阅读数 559

评论数 0

机器学习实战学习笔记1——KNN算法

一、KNN算法概述: 1.KNN算法的工作原理是: (1)存在一个训练样本集,并且知道样本集中每一数据与所属分类的对应关系,即每个数据都存在分类标签。 (2)若此时输入不带标签的新数据之后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后用算法提取出样本集中特征最相似数据的分类标签。...

2016-07-18 18:47:34

阅读数 772

评论数 0

机器学习实战读书笔记(序)

这本机器学习实战,年前也曾经看过并实现了其中几章的内容,但不够系统,打算趁这个暑假,再系统的过上一遍,并做好笔记。1.机器学习能让我们自数据集中受到启发,即我们会利用计算机来彰显数据背后的真实含义。经典应用领域:人脸识别、手写数字识别、垃圾邮件过滤、购物网站产品推荐。机器学习是一个把无序的数据转换...

2016-06-30 12:45:07

阅读数 515

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭