![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习实战
文章平均质量分 81
风吹小裤衩123
机器学习、网络安全
展开
-
Class Confidence Proportion---不平衡数据集的决策树算法
Class Confidence Proportion不平衡数据集的决策树算法CCP算法是一种基于C4.5算法改进、用于处理不平衡数据集的决策树划分算法。 其基本思想是提出一种新的置信度公式,从而使关注点集中于实例预测正确的比例,从而避免不平衡数据对属性划分的影响原创 2017-11-19 13:53:36 · 3343 阅读 · 2 评论 -
机器学习速成课程MLCC(8)--逻辑回归模型(Logistic Regression)
逻辑回归预计用时:10 分钟许多问题需要将概率估算值作为输出。逻辑回归是一种极其高效的概率计算机制。实际上,您可以通过下两种方式之一使用返回的概率:“按原样”转换成二元类别。我们来了解一下如何“按原样”使用概率。假设我们创建一个逻辑回归模型来预测狗在半夜发出叫声的概率。我们将此概率称为: p(bark | night)如果逻辑回归模型预测 p(bark | night) 的值为 0.05,那么一...原创 2018-03-07 22:23:58 · 311 阅读 · 0 评论 -
机器学习速成课程MLCC(7)--如何评价模型
正样例与负样例预计用时:5 分钟在本部分,我们将定义用于评估分类模型的指标的主要组成部分。不过,我们先来看一则寓言故事:伊索寓言:狼来了(精简版)有一位牧童要照看镇上的羊群,但是他开始厌烦这份工作。为了找点乐子,他大喊道:“狼来了!”其实根本一头狼也没有出现。村民们迅速跑来保护羊群,但他们发现这个牧童是在开玩笑后非常生气。[这样的情形重复出现了很多次。]一天晚上,牧童看到真的有一头狼靠近羊群,他大...原创 2018-03-07 22:21:40 · 466 阅读 · 0 评论 -
机器学习速成课程MLCC(6)--测试集与训练集
测试集与训练集预计用时:8 分钟我们可以将数据集分为两个子集的概念:训练集 - 用于训练模型的子集。测试集 - 用于测试训练后模型的子集。您可以想象按如下方式拆分单个数据集:图 1. 将单个数据集拆分为一个训练集和一个测试集。确保您的测试集满足以下两个条件:规模足够大,可产生具有统计意义的结果。能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同。假设您的测试集满足上述两个条件,您的...原创 2018-03-07 22:10:23 · 599 阅读 · 0 评论 -
机器学习速成课程MLCC(5)--正则化
L2正则化预计用时:7 分钟请查看以下泛化曲线,该曲线显示的是训练集和验证集相对于训练迭代次数的损失图 1. 训练集和验证集损失。图 1 显示的是某个模型的训练损失逐渐减少,但验证损失最终增加。换言之,该泛化曲线显示该模型与训练集中的数据过拟合。根据奥卡姆剃刀定律,或许我们可以通过降低复杂模型的复杂度来防止过拟合,这种原则称为正则化。也就是说,并非只是以最小化损失(经验风险最小化)为目标:mini...原创 2018-03-07 21:59:23 · 238 阅读 · 0 评论 -
机器学习速成课程MLCC(4)--使用TensorFlow的基本步骤
TensorFlow工具包预计用时:4 分钟下图显示了 TensorFlow 工具包的当前层次结构:图 1. TensorFlow 工具包层次结构。下表总结了不同层的用途:工具包说明Estimator (tf.estimator)高级 OOP API。tf.layers/tf.losses/tf.metrics用于常见模型组件的库。TensorFlow低级 APITensorFlow 由以下两个组...原创 2018-03-07 21:52:04 · 823 阅读 · 0 评论 -
机器学习速成课程MLCC(3)--如何降低损失
迭代方法预计用时:10 分钟在本单元中,您将了解机器学习模型如何以迭代方式降低损失。迭代学习可能会让您想到“Hot and Cold”这种寻找隐藏物品(如顶针)的儿童游戏。在我们的游戏中,“隐藏的物品”就是最佳模型。刚开始,您会胡乱猜测(“w1 的值为 0。”),等待系统告诉您损失是多少。然后,您再尝试另一种猜测(“w1 的值为 0.5。”),看看损失是多少。哎呀,这次更接近目标了。实际上,如果您...原创 2018-03-07 21:49:29 · 556 阅读 · 0 评论 -
机器学习速成课程MLCC(2)--深入了解机器学习 (Descending into ML)
线性回归预计用时:6 分钟人们早就知晓,相比凉爽的天气,蟋蟀在较为炎热的天气里鸣叫更为频繁。数十年来,专业和业余昆虫学者已将每分钟的鸣叫声和温度方面的数据编入目录。Ruth 阿姨将她喜爱的蟋蟀数据库作为生日礼物送给您,并邀请您自己利用该数据库训练一个模型,从而预测鸣叫声与温度的关系。首先建议您将数据绘制成图表,了解下数据的分布情况:0255075100125150175每分钟虫鸣声51015202...原创 2018-03-07 21:23:54 · 300 阅读 · 0 评论 -
机器学习速成课程MLCC(1)--机器学习主要术语
什么是(监督式)机器学习?简单来说,它的定义如下:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。下面我们来了解一下机器学习的基本术语。标签在简单线性回归中,标签是我们要预测的事物,即 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。特征在简单线性回归中,特征是输入变量,即 x 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学...原创 2018-03-07 21:18:38 · 445 阅读 · 0 评论 -
从零开始的机器学习生活---决策树
从零开始的机器学习生活—决策树的实现决策树(decision tree)是一种常见的机器学习方法,往往不需要很深奥的背景知识就能掌握,所以选择决策树作为入门机器学习的第一款算法的你,已经成功迈出了成为机器学习大神的第一步。学习决策树树之前,需要掌握数据结构的知识,还需要有一定的python基础。原创 2017-11-15 21:51:59 · 891 阅读 · 0 评论 -
机器学习速成课程MLCC(10)--训练神经网络(编程练习)
神经网络简介这里使用到了python2.7、TensorFlow1.6以及IPython、numpy、pandas等一系列python的数据处理包。pandas的快速入门教程在这里学习目标:使用 TensorFlow DNNRegressor 类定义神经网络 (NN) 及其隐藏层训练神经网络学习数据集中的非线性规律,并实现比线性回归模型更好的效果在之前的练习中,我们使用合成特征来帮助模型学习非线性...原创 2018-03-07 23:01:08 · 945 阅读 · 0 评论