机器学习
文章平均质量分 88
方naoke
学无止境
展开
-
训练集与测试集切分
前言为了 更好的训练数据并且更好测试模型,一般做机器学习之前都会进行训练集和测试集的切分。train_test_split实现其实我们可以先把数据的输入X和输出向量y进行一个水平拼接,然后随机之后拆开,但是过程比较麻烦。在sklearn中shuffle的并不是训练集,而是训练集长度大小的随机索引。产生随机索引值shuffle_indexes=np.random.pe原创 2018-01-14 15:18:15 · 5835 阅读 · 0 评论 -
K近邻算法
前言这是机器学习最简单的算法,当然并不是说简单就没人用。knn算法的优点就是简单而且便于实现,并且有一定好的效果。算法原理K近邻的算法思路很简单。背景假设 有两个类别散落在这个特征空间中。 现在有一个新的样本需要预测它属于哪个类别。 思路介绍step1: 暴力的求出新样本与其余所有样本的“距离”。 step2: 找到距离它最近的k的点。(这就是k近原创 2018-01-14 15:11:25 · 1177 阅读 · 0 评论 -
多元线性回归
前言一元线性回归只是让我们好理解回归这个概念。在实际中特征很少说只有一个。所有就有多元线性回归。概念与一元线性回归一样,多元线性回归自然是一个回归问题。只不过一元线性回归的方程可以写成。 y=ax+b 多元线性回归是 y=a1x1+a2X2+a3X3+…+anXn+b 相当于我们高中学的一元一次方程,变成了n元一次方程。因为y还是那个y。只是特征增多了。模型的训练原创 2018-01-24 20:23:39 · 3174 阅读 · 1 评论 -
线性回归算法
前言机器学习第二个基础的算法。跟上一篇博客类似这一遍博客会深入讨论线性回归的细节问题。线性回归算法线性回归算法主要解决回归问题(废话),但是使用线性回归一定要假装认为数据一定呈线性。其思想简单,实现容易。并且其思路就是大名鼎鼎神经网络的基础。也是很多非线性模型的基础。不像knn,其结果有很好的解释性。思路就是从一堆看起来没有联系的样本点中找到一个直线方程,能让数据尽可能原创 2018-01-19 09:41:00 · 4674 阅读 · 2 评论 -
回归评价指标MSE、RMSE、MAE、R-Squared
前言分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared。下面一一介绍均方误差(MSE)MSE (Mean Squared Error)叫做均方误差。看公式 这里的y是测试集上的。用 真实值-预测值 然后平方之后求和平均。猛着看一下这个公式是不是觉得眼熟,这不就是线性回归的损失函数嘛!!! 对,在线性回归的时候我们的目的就原创 2018-01-19 15:17:34 · 149062 阅读 · 18 评论 -
使用tensorflow实现CNN
前言好久没有更新博客,在之前的博文用代码一步一步完成了手写数字识别,但是在工业应用中不需要这么复杂的实现。我们造车再也不需要自己造轮子。Tensorflow作为当今最流行的机器学习框架,也是Google的亲儿子,对其学习也是有必要性。当然tensorflow也出来很久了,在写本文的时候tensorflow已经是1.8版本。这篇文章没有什么理论知识,因为理论知识早在前面的文章说过了,也用代码实现...原创 2018-05-24 15:19:03 · 21331 阅读 · 20 评论