机器学习
文章平均质量分 55
cunyan
这个作者很懒,什么都没留下…
展开
-
python的文件操作
python读取文件###读取一行filehand = open('C:\工作\字段整理.txt')line = filehand.readline()while line: print(line) print("=============") line = filehand.readline()##读取全部files = open('C:\...原创 2016-10-18 21:24:47 · 143 阅读 · 0 评论 -
机器学习中 中值的含义
中值[median] (又称中位数)是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数,用Me表示。当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。中值也称中位数,即数据按升序或者降序排列,假如有n个数据,当n为偶数时,中位数为第n/2位数和第(n+2)/2位数...原创 2016-10-20 21:59:28 · 1689 阅读 · 0 评论 -
相关系数与决定系数的关系
决定系数是相关系数的平方。 相关系数是用来描述两个变量之间的线性关系的,但决定系数的适用范围更广,可以用于描述非线性或者有两个及两个以上自变量的相关关系。决定系数的意义是变量A可以解释变量B方差的多少。 因此,相关系数的意义(为正的情况)就是变量A可以解释变量B标准差的多少。 更直接的解释是,由于变量A的变动,变量B增加了C,而这C中有r的比例是因为变量A的变动造成的。 ...原创 2016-10-20 21:58:42 · 17546 阅读 · 1 评论 -
机器学习之第4部分:比较深度学习方式方法
第4部分:比较深度学习方式方法 你可能会问:为什么词袋模型更好?最大的原因是,在我们的教程中,平均向量,利用重心失去词语的顺序,使其非常相似的概念袋的话。性能是相似的(标准误差范围内)使所有三种方法几乎等价 一些尝试:首先,训练Word2Vec更多的文本应该极大地提高性能。谷歌的搜索结果都是基于词向量是学习的一个多billion-word语料库;...原创 2016-10-20 21:58:27 · 229 阅读 · 0 评论 -
机器学习之第3部分 词向量的更多的乐趣
第3部分:词向量的更多的乐趣 Code本教程代码第3部分住在这里。https://github.com/wendykan/DeepLearningMovies/blob/master/Word2Vec_BagOfCentroids.py 数字表示的单词现在,我们已经训练模型的语义理解的话,我们应该如何使用它呢?如果你看下,Word2Vec模型训练在第...原创 2016-10-20 21:58:02 · 311 阅读 · 0 评论 -
机器学习之第二部分:词向量
第二部分:词向量Code第2部分的教程代码住在这里。https://github.com/wendykan/DeepLearningMovies/blob/master/Word2Vec_AverageVectors.py 引入分布式词向量这部分的教程将重点关注使用分布式Word2Vec创建的词向量算法。(深度学习的概述,以及一些额外的指针教程,看到“深度学习...原创 2016-10-19 23:03:17 · 473 阅读 · 0 评论 -
机器学习之第一部分:词袋模型
第一部分:词袋模型 什么是NLP? NLP(自然语言处理)是一组接近文本的技术问题。这个页面将帮助您开始使用加载和清扫IMDB影评,然后应用一个简单的袋子的话模型得到惊人的准确的预测评估是否赞成或反对。 在你开始之前本教程使用的Python语言。如果你还没有使用Python之前,我们建议在前往泰坦尼克号竞争Python教程把你的脚弄湿(查看随机森林介绍当你)。如...原创 2016-10-19 23:02:36 · 758 阅读 · 0 评论 -
回归分析定义衡量标准
如果不能对模型的训练和测试的表现进行量化地评估,我们就很难衡量模型的好坏。通常我们会定义一些衡量标准,这些标准可以通过对某些误差或者拟合程度的计算来得到。通过运算决定系数R2 来量化模型的表现。模型的决定系数是回归分析中十分常用的统计信息,经常被当作衡量模型预测能力好坏的标准。R2的数值范围从0至1,表示目标变量的预测值和实际值之间的相关程度平方的百分比。一个模型的R2 值为0说明它...原创 2016-10-19 11:15:49 · 928 阅读 · 0 评论 -
监督学习算法小结(1):决策树
Decision Tree1. 什么是决策树决策树是一个极其直观的算法(这也使得它的可解释性非常好),比如下面这个决策树 2. 基本决策树算法从上面可以看出来这个形式非常的简单,那么如何生成一颗决策树?相信开始了nano degree并完成了P0的同学们都已经自己实现过一个决策树了,也就是大家做的Titanic的project,在第三个问题中,大家自己通过不断的选...原创 2016-10-19 11:13:59 · 225 阅读 · 0 评论 -
三大主要分类器总结详解
决策树模型决策树的优点:一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。三、 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。四、 决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容...原创 2016-10-19 11:13:08 · 4438 阅读 · 0 评论 -
机器学习中误差原因
误差原因在模型预测中,模型可能出现的误差来自两个主要来源,即:因模型无法表示基本数据的复杂度而造成的偏差(bias),或者因模型对训练它所用的有限数据过度敏感而造成的方差(variance)。我们会对两者进行更详细的探讨。 偏差造成的误差 - 精度和欠拟合如前所述,如果模型具有足够的数据,但因不够复杂而无法捕捉基本关系,则会出现偏差。这样一来,模型一直会系统地...原创 2016-10-18 21:31:33 · 1439 阅读 · 0 评论 -
机器学习中学习曲线与模型复杂化
学习曲线让我们根据模型通过可视化图形从数据中学习的能力来探讨偏差与方差之间的关系。机器学习中的学习曲线是一种可视化图形,能根据一系列训练实例中的训练和测试数据比较模型的指标性能。在查看数据与误差之间的关系时,我们通常会看到,随着训练点数量的增加,误差会趋于下降。由于我们尝试构建从经验中学习的模型,因此这很有意义。我们将训练集和测试集分隔开,以便更好地了解能否将模型泛化到未见过的数...原创 2016-10-18 21:30:14 · 495 阅读 · 0 评论 -
机器学习的算法衡量指标
选择合适的指标在构建机器学习模型时,我们首先要选择性能指标,然后测试模型的表现如何。相关的指标有多个,具体取决于我们要尝试解决的问题。在可以选择性能指标之前,首先务必要认识到,机器学习研究的是如何学习根据数据进行预测。对于本课程和后续的“监督式机器学习”课程,我们将重点关注那些创建分类或创建预测回归类型的已标记数据。此外,在测试模型时,也务必要将数据集分解为训练数据和测试数据...原创 2016-10-18 21:29:41 · 293 阅读 · 0 评论 -
python下安装numpy
用python自带的安装工具,pip install numpy scipy 等。如果没有pip的话,可以试试easy-install numpy scipy。打开cmd,在里面输入这些命令。 不想自己一个一个装的话,最简单的方法是安装python(x,y)套装,也可以考虑enthought套装 例子:pip install numpy...原创 2016-10-18 21:26:41 · 386 阅读 · 0 评论 -
感知机和梯度下降学习规则比较
感知机适合线性可分的数据梯度下降适合线性不可分的数据 为什么我们不使用梯度下降算法在 y^ 上?因为非连续函数不可导原创 2016-10-20 22:01:15 · 499 阅读 · 0 评论