------------------机器学习------------------
文章平均质量分 92
UMR小豪
这个作者很懒,什么都没留下…
展开
-
Logistic回归
基于Logistic回归和Sigmoid函数的分类logistic回归:优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 适用数据类型:数值型和标称型数据。 Sigmoid函数具体的计算公式为如下: δ(z)=11+e−z" role="presentation" style="position: relative;">δ(原创 2018-01-29 21:47:12 · 1580 阅读 · 2 评论 -
模型评估与模型选择
评价一个机器学习模型的好坏需要特定的评估方法,并据此对模型进行选择,从而得到一个更好的模型。本文主要是关于模型评估与模型选择的笔记,以及利用 scikit-learn 对 Logistic回归进行的结果进行交叉检验。1.训练误差,测试误差与泛化误差学习器(模型)在训练集上表现出来的误差称为 训练误差(training error) 或 经验误差(empirical error) ,这种转载 2018-01-31 21:30:38 · 365 阅读 · 0 评论 -
机器学习开篇
相关术语通常我们为算法输入大量已分类数据作为算法的训练集。 训练集是用于训练机器学习算法的数据样本集合。目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。我们通常将分类问题中的目标变量成为类别,并假定分类问题只存在有限个数的类别。为了测试机器原创 2018-01-25 10:57:02 · 335 阅读 · 0 评论 -
决策树
创建分支的伪代码函数createBranch()if so return 类标签else 寻找划分数据集的最好特征 划分数据集 创建分支节点 for 每个划分的子集 调用函数createBranch并增加返回结果到分支节点中 return 分支节点决策树的一般流程收集数据:可以使用任何方法。准备数据原创 2018-01-25 21:39:19 · 229 阅读 · 0 评论 -
模型评估与选择
评估方法留出法:直接将数据集D划分为两个互斥的集合,其中一个是训练集S,另一个是测试机(准确说是验证集)T。训练集和验证集的划分要尽可能保持数据分布一致。常用作法将数据集的2/3 ~ 4/5用作训练集,其余的用作验证集。由于存在很多种把数据集进行划分的方法,所以,通常进行多次数据集的划分。最后返回多次划分集合结果的平均值。例如进行了100次集合数据的划分,则求100次结果的平均值。交叉验...转载 2018-02-26 14:58:10 · 308 阅读 · 0 评论 -
K-近邻算法
k-近邻算法概述优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标...原创 2018-02-26 17:00:47 · 173 阅读 · 0 评论 -
python中array.sum(axis=?)的用法
根据代码中运行的结果来看,主要由以下几种:1. sum():将array中每个元素相加的结果2. axis对应的是维度的相加。比如:1、axis=0时,对饮搞得是第一个维度元素的相加,[[0,1,2,3],[4,5,6,7]]和[[1,2,3,4],[5,6,7,8]]对应元素相加[[0+4,1+2,2+3,3+4],[4+5...转载 2018-03-04 21:44:57 · 681 阅读 · 1 评论