machine learning
stone_tomcat
路漫漫气息永存!
展开
-
多维数据分析之Cube、Dimension、Measure
多维数据分析的概念非常容易引起疑惑,它常常让人联想到超越三维的更高维空间中的一些几何概念。其实这是完全没有必要的,多维数据分析概念本质上是极为简单和容易理解的,今天小编就用深入浅出的方式介绍这几个概念。多维数据结构概念一:Cube(又称多维数据集或数据立方体)举个例子,您在超市结账后会得到一个小票,上面有时间、店铺、商品类别、商品单价、购买数量、消费金额等信息,如果把某个地区全部消费者的小票收集到一起,那么这些购物小票中的数据就形成了一个关于消费者超市购物行为的数据集,这...原创 2021-08-26 15:28:41 · 1327 阅读 · 0 评论 -
精确率 召回率
精确率精确率指标尝试回答以下问题:在被识别为正类别的样本中,确实为正类别的比例是多少?精确率的定义如下:Precision=TPTP+FP注意:如果模型的预测结果中没有假正例,则模型的精确率为 1.0。让我们来计算一下上一部分中用于分析肿瘤的机器学习模型的精确率:真正例 (TP):1 假正例 (FP):1 假负例 (FN):8 真负例 (TN):90 精确率精确率=TPTP+FP=11+1=0.5该模型的精确率为 0.5,也就是说,该模型在预测恶性肿瘤原创 2020-07-22 09:19:19 · 472 阅读 · 0 评论 -
分类 -准确率
准确率是一个用于评估分类模型的指标。通俗来说,准确率是指我们的模型预测正确的结果所占的比例。正式点说,准确率的定义如下:Accuracy=Number of correct predictionsTotal number of predictions对于二元分类,也可以根据正类别和负类别按如下方式计算准确率:Accuracy=TP+TNTP+TN+FP+FN其中,TP = 真正例,TN = 真负例,FP = 假正例,FN = 假负例。让我们来试着计算一下以下模型的准确率,该模型将 100原创 2020-07-22 09:19:42 · 2967 阅读 · 0 评论 -
正类别与负类别
伊索寓言:狼来了(精简版)有一位牧童要照看镇上的羊群,但是他开始厌烦这份工作。为了找点乐子,他大喊道:“狼来了!”其实根本一头狼也没有出现。村民们迅速跑来保护羊群,但他们发现这个牧童是在开玩笑后非常生气。[这样的情形重复出现了很多次。]一天晚上,牧童看到真的有一头狼靠近羊群,他大声喊道:“狼来了!”村民们不想再被他捉弄,都待在家里不出来。这头饥饿的狼对羊群大开杀戒,美美饱餐了一顿。这下子,整个镇子都揭不开锅了。恐慌也随之而来。我们做出以下定义:“狼来了”是正类别。 “没有狼”是负类.原创 2020-07-22 09:56:45 · 1953 阅读 · 0 评论 -
L2 正则化
图 1. 训练集和验证集损失。图 1 显示的是某个模型的训练损失逐渐减少,但验证损失最终增加。换言之,该泛化曲线显示该模型与训练集中的数据过拟合。根据奥卡姆剃刀定律,或许我们可以通过降低复杂模型的复杂度来防止过拟合,这种原则称为正则化。也就是说,并非只是以最小化损失(经验风险最小化)为目标:minimize(Loss(Data|Model))而是以最小化损失和复杂度为目标,这称为结构风险最小化:minimize(Loss(Data|Model) + complexity(...原创 2020-07-31 18:10:38 · 1024 阅读 · 0 评论 -
数据集
数据集分为两个子集的概念:训练集- 用于训练模型的子集。 测试集- 用于测试训练后模型的子集。您可以想象按如下方式拆分单个数据集:图 1. 将单个数据集拆分为一个训练集和一个测试集。确保您的测试集满足以下两个条件:规模足够大,可产生具有统计意义的结果。 能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同。假设您的测试集满足上述两个条件,您的目标是创建一个能够很好地泛化到新数据的模型。我们的测试集充当新数据的代理。以下图为例。请注意,从训练数据中学习的模型...原创 2020-07-31 18:11:00 · 222 阅读 · 0 评论 -
使用 TensorFlow 的起始步骤
机器学习速成课程会逐步引导您使用 tf.estimator(一种高级TensorFlowAPI)对模型进行编码,以便将学到的原则和技术应用于实践。机器学习速成课程中的编程练习使用的是可将代码、输出和说明性文字合并到一个协作文档中的数据分析平台。可使用Colaboratory平台直接在浏览器中运行编程练习(无需设置!)。Colaboratory 支持大多数主流浏览器,并且在 Chrome 和 Firefox 的各个桌面版本上进行了最全面的测试。如果您想下载并离线运行这些练习,请参阅有关设...原创 2020-07-21 15:20:54 · 191 阅读 · 0 评论 -
TensorFlow 工具包
图 1. TensorFlow 工具包层次结构。下表总结了不同层的用途:工具包 说明 Estimator (tf.estimator) 高级 OOP API。 tf.layers/tf.losses/tf.metrics 用于常见模型组件的库。 TensorFlow 低级 API TensorFlow 由以下两个组件组成:图协议缓冲区 执行(分布式)图的运行时这两个组件类似于 Java 编译器和 JVM。正如 JVM 会实施在多个硬件平台(C...原创 2020-07-21 15:17:20 · 685 阅读 · 0 评论 -
梯度下降法 学习速率
在梯度下降法中,批量指的是用于在单次迭代中计算梯度的样本总数。到目前为止,我们一直假定批量是指整个数据集。就 Google 的规模而言,数据集通常包含数十亿甚至数千亿个样本。此外,Google 数据集通常包含海量特征。因此,一个批量可能相当巨大。如果是超大批量,则单次迭代就可能要花费很长时间进行计算。包含随机抽样样本的大型数据集可能包含冗余数据。实际上,批量大小越大,出现冗余的可能性就越高。一些冗余可能有助于消除杂乱的梯度,但超大批量所具备的预测价值往往并不比大型批量高。如果我们可以通过更...原创 2020-07-21 15:11:50 · 363 阅读 · 0 评论 -
降低损失的迭代方法
迭代学习可能会让您想到“Hot and Cold”这种寻找隐藏物品(如顶针)的儿童游戏。在我们的游戏中,“隐藏的物品”就是最佳模型。刚开始,您会胡乱猜测(“w1的值为 0。”),等待系统告诉您损失是多少。然后,您再尝试另一种猜测(“w1的值为 0.5。”),看看损失是多少。哎呀,这次更接近目标了。实际上,如果您以正确方式玩这个游戏,通常会越来越接近目标。这个游戏真正棘手的地方在于尽可能高效地找到最佳模型。下图显示了机器学习算法用于训练模型的迭代试错过程:图 1. 用于训练模型的迭代方法...原创 2020-07-21 15:05:48 · 257 阅读 · 0 评论 -
ML -002
人们早就知晓,相比凉爽的天气,蟋蟀在较为炎热的天气里鸣叫更为频繁。数十年来,专业和业余昆虫学者已将每分钟的鸣叫声和温度方面的数据编入目录。Ruth 阿姨将她喜爱的蟋蟀数据库作为生日礼物送给您,并邀请您自己利用该数据库训练一个模型,从而预测鸣叫声与温度的关系。首先建议您将数据绘制成图表,了解下数据的分布情况:转存失败重新上传取消图 1. 每分钟的鸣叫声与温度(摄氏度)的关系。毫无疑问,此曲线图表明温度随着鸣叫声次数的增加而上升。鸣叫声与温度之间的关系是线性关系吗?是的,您可以绘制一条直线来原创 2020-07-21 14:49:31 · 167 阅读 · 0 评论 -
ML-01
什么是(监督式)机器学习?简单来说,它的定义如下:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。下面我们来了解一下机器学习的基本术语。标签标签是我们要预测的事物,即简单线性回归中的y变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。特征特征是输入变量,即简单线性回归中的x变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方式指定:x1,x2,...xN在垃圾邮件检...原创 2020-07-21 14:35:53 · 117 阅读 · 0 评论 -
创建你的ML问题
Formulate Your Problem as an ML ProblemThis section is a guide to the suggested approach for framing an ML problem:Articulate your problem. Start simple. Identify Your Data Sources. Design your data for the model. Determine where data comes from.原创 2020-07-21 14:14:19 · 249 阅读 · 0 评论 -
找出ML的好问题
着重解决传统编程难以解决的问题。例如,考虑智能回复。Smart Reply团队认识到用户花费大量时间来回复电子邮件和消息。可以预测可能的响应的产品可以节省用户时间。另一个示例是在Google相册中,其中的业务问题是通过关键字搜索来查找特定照片而无需手动标记。想象一下,尝试使用常规编程创建诸如智能回复或Google相册搜索之类的系统。没有明确的方法。相比之下,机器学习可以通过检查数据模式并对其进行调整来解决这些问题。将ML视为工具箱中的工具之一,并且仅在适当的时候才将其发布。考虑到这些示例,请问自己.原创 2020-07-21 14:01:07 · 194 阅读 · 0 评论 -
监督学习与无监督学习
人们通常将ML讲成两种范式,即监督学习和无监督学习。但是,将机器学习问题描述为属于监督学习和无监督学习之间的监督范围更为准确。为了简单起见,本课程将重点介绍该频谱的两个极端。有关许多常用ML术语的定义,请参见ML术语表什么是监督学习?监督学习是机器学习的一种,其中模型带有标记的训练数据。但是,这是什么意思?例如,假设您是一名业余植物学家,决心区分两种小人植物属(完全构成的植物)。这两个物种看起来非常相似。幸运的是,一位植物学家收集了她在野外发现的小人猿植物的数据集以及它们的物种名称。..原创 2020-07-21 13:59:15 · 233 阅读 · 0 评论