机器学习理论知识
提莫君
这个作者很懒,什么都没留下…
展开
-
机器学习之特征工程(一)数据分箱
1 分箱简介数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法。例如,例如我们有一组关于人年龄的数据,如下图所示:现在我们希望将他们的年龄分组到更少的间隔中,可以通过设置一些条件来实现:分箱的数据不一定必须是数字,它们可以是任何类型的值,如“狗”,“猫”,“仓鼠”等。 分箱也用于图像处理,通过将相邻像素组合...转载 2019-03-20 10:59:12 · 5156 阅读 · 0 评论 -
机器学习(十二)分类算法之随机森林
作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学...原创 2019-03-27 17:46:51 · 1341 阅读 · 0 评论 -
机器学习(十三)分类算法之支持向量机SVM
支持向量机SVM基础SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。支持向量机(SVM)算法比较适合图像和文本等样本特征较多的应用场合。基于结构风险最小化原理,对样本集进行压缩,解决了以往需要大样本数量进行训练问题,它将文本通过计算抽象成向量化的训练数据,提高了分类的精...原创 2019-03-27 18:52:32 · 3384 阅读 · 0 评论 -
机器学习(十四)SVM分类案例
01_案例一:鸢尾花数据SVM分类import numpy as npimport pandas as pdfrom sklearn import svmfrom sklearn.model_selection import train_test_splitfrom sklearn import metrics from sklearn.datasets import load_iri...原创 2019-03-27 19:20:32 · 8154 阅读 · 0 评论 -
机器学习(十五)回归算法之线性回归
线性回归线性回归的原理什么是线性回归1)定义与公式线性回归(Linear regression)是利用**回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)**之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归那么怎么理解呢?我们来看几个例子期末成绩:0.7×考试成绩+0.3×平时成绩房子价格 = 0.0...原创 2019-03-28 12:00:37 · 1766 阅读 · 0 评论 -
想了解机器学习?这 3 种算法你必须要知道(中英文对照)
英文原文:https://dzone.com/articles/3-machine-learning-algorithms-you-need-to-know翻译参考:https://www.oschina.net/translate/3-machine-learning-algorithms-you-need-to-knowImagine you have some data-related ...翻译 2019-04-01 19:55:14 · 1738 阅读 · 0 评论 -
机器学习(十六)欠拟合与过拟合
问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?当算法在某个数据集当中出现这种情况,可能就出现了过拟合现象。什么是过拟合与欠拟合欠拟合现象:训练集合表现很差,测试集合表现也很差原因:模型太简单了,学习到的有用特征太少过拟合现象:训练集合表现很好,测试集合表现很差原因:模型学习能力太强,学习到一些嘈杂无用的特征分析第一种情况:因为机器学习到的...原创 2019-03-28 13:29:50 · 633 阅读 · 0 评论 -
机器学习(十七)线性回归之岭回归
岭回归岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果。线性回归的损失函数用最小二乘法,等价于当预测值与真实值的误差满足正态分布时的极大似然估计;岭回归的损失函数,是最小二乘法+L2范数,等价于当预测值与真实值的误差满足正态分布,且权重值也满足正态分布(先验分布)时的最大后验估计;LASSO的损失函数,是最小二乘法+L1范数,等价于当预测值...原创 2019-03-28 14:02:00 · 2517 阅读 · 0 评论 -
机器学习(十八)分类算法之逻辑回归
逻辑回归**逻辑回归(Logistic Regression)**是机器学习中的一种分类模型,逻辑回归是一种分类算法,名字中带有回归,它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器逻辑...原创 2019-03-28 14:45:56 · 648 阅读 · 0 评论 -
机器学习(二十)无监督学习-K-means算法
无监督学习一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告客户可以通过有关联的广告接触到他们的目标客户。Airbnb 需要将自己的房屋清单分组成不同的社区,以便用户能更轻松地查阅这些清单。一个数据科学团队需要降低一个大型数据集的维度的数量,以便简化建模和降低文件大小。我们可以怎样最有用地对其进行归纳和分组?我们可以怎样以一种压缩格式有效地表征数据?这都是...原创 2019-03-28 18:46:24 · 3538 阅读 · 0 评论 -
机器学习(十一)分类算法之决策树算法
认识决策树决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法怎么理解这句话?通过一个对话例子想一想这个女生为什么把年龄放在最上面判断!!!!!!!!!决策树分类原理详解为了更好理解决策树具体怎么分类的,我们通过一个问题例子?问题:如何对这些客户进行分类预测?你是如何去划分?有可能你的划分是这样的那么...原创 2019-03-27 17:16:16 · 1884 阅读 · 0 评论 -
机器学习(十)分类算法之朴素贝叶斯(Naive Bayes)算法
贝叶斯定理首先我们来了解一下贝叶斯定理:贝叶斯定理是用来做什么的?简单说,概率预测:某个条件下,一件事发生的概率是多大?了解一下公式事件B发生的条件下,事件A发生的概率为:这里写图片描述同理可得,事件A发生的条件下,事件B发生的概率为:很容易推导得到:假设若P(A)≠0,那么就可以得到用来预测概率的贝叶斯定理了:这个定理显然是可以推导到多个条件的,比如在2个条件的情况下:...原创 2019-03-27 16:29:25 · 1744 阅读 · 0 评论 -
机器学习(一)机器学习概述
机器学习概述机器学习与人工智能、深度学习机器学习和人工智能,深度学习的关系机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法发展而来人工智能>机器学习>深度学习达特茅斯会议-人工智能的起点1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,约翰·麦卡锡(John McCarthy)马文·闵斯基(Marvin Minsky,人工智能与认知学专家)...原创 2019-04-01 19:04:44 · 3404 阅读 · 1 评论 -
机器学习的典型例子-数据预处理
机器学习的典型例子根据用户的国际/年龄/薪水来推算用户是否会购买商品自变量:国际/年龄/薪水因变量:购买商品取自变量:# Data Preprocessing Template# Importing the librariesimport numpy as npimport matplotlib.pyplot as pltimport pandas as pd# Impo...原创 2019-04-29 16:35:10 · 2654 阅读 · 2 评论