机器学习|R数据分析
yew1eb
https://github.com/yew1eb
展开
-
Coursera机器学习课程笔记(4) Regularization
过拟合问题如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为 0),但是可能会不能推广到新的数据。 分类问题中也存在这样的问题: 就以多项式理解,x 的次数越高,拟合的越好,但相应的预测的能力就可能变差。 问题是,如果我们发现了过拟合问题,应该如何处理? 代价函数我们可以从之前的事例中看出,正是那些高次项导致了过拟合的产生,所以如果我们能让这些高次项原创 2015-09-05 10:25:06 · 1612 阅读 · 0 评论 -
Coursera机器学习课程笔记(3) Logistic Regression
逻辑回归(Logistic Regression)分类问题在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈等等。我们从二元的分类问题开始讨论。我们将因变量(dependant variable)可能属于的两个类分别称为负向类(negative class)和正向类(positive class),则因变原创 2015-09-05 09:33:38 · 1992 阅读 · 0 评论 -
Coursera机器学习课程笔记(1) Supervised Learning and Unsupervised Learning
最近跟完了Andrew Ng的Machine Learning前三周的课,主要讲解了机器学习中的线性回归(Linear Regression)和逻辑回归(Logistic Regression)模型。在这里做一下记录。 另外推荐一本统计学习的书,《统计学习方法》李航,书短小精悍,才200多页,但是内容基本上覆盖了机器学习中的理论基础。笔记<1> 主要了解一下监督学习和无监督学习机器学习:是关于计算原创 2015-08-25 15:22:54 · 4154 阅读 · 0 评论 -
Coursera机器学习课程笔记(2) Linear Regression
线性回归(Linear Regression)在监督学习中,我们需要找到一个最佳的预测函数h(x),比如我们可以选取特征向量的线性组合函数,即可以把h(x)定义为: 机器学习里面一般默认变量为列向量,因此这里是参数向量\theta的转置矩阵。同时我们还加上了“feature 0”即x_0 = 1 以便方便表示成为向量乘积的形式。为了寻找最优的参数\theta,我们可以最小化loss funct原创 2015-09-04 20:57:54 · 1727 阅读 · 0 评论 -
Coursera机器学习课程笔记(5) Neural Networks Representation
为什么引入神经网络?——Nonlinear hypothesis我们之前学的,无论是线性回归还是逻辑回归都有这样一个缺点,即当特征太多时,计算的负荷会非常大。 下面是一个例子: 当我们使用 x1,x2 的多次项式进行预测时,我们可以应用的很好。 之前我们已经看到过,使用非线性的多项式项,能够帮助我们建立更好的分类模型。假设我们有非常多的特征,例如大于 100 个变量,我们希望用这 100原创 2015-09-07 21:59:31 · 2060 阅读 · 1 评论