机器学习
文章平均质量分 95
nudt_oys
An AC a day,keeps WA away~
展开
-
[深度之眼机器学习训练营第四期]大规模机器学习
这一节主要讲了一些适用于大规模机器学习的算法及策略,并比较了梯度下降、随机梯度下降和小批量梯度下降的优劣。目前来说,大规模机器学习中用的最多的还是小批量梯度下降,毕竟它在执行效率和性能之间达到了一个平衡。当然,对于小批量梯度下降来说,如何选择合适的批量大小又是一个值得深思的问题。梯度下降Repeat{Θt+1:=Θt−α1n∑i=1n∇cost(f(x(i);Θt),y(i))}\begin{...原创 2020-03-15 10:46:11 · 358 阅读 · 0 评论 -
[深度之眼机器学习训练营第四期]异常检测
密度估计如果随机变量XXX的概率分布函数满足f(x)=12πσexp((x−μ)22σ2)f(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp\left(\frac{(x-\mu)^2}{2\sigma^2}\right)f(x)=2πσ1exp(2σ2(x−μ)2)其中μ\muμ是均值,σ2\sigma^2σ2是方差,我们就称XXX服从高斯分布,记作X∼N(...原创 2020-03-06 14:38:39 · 321 阅读 · 0 评论 -
[深度之眼机器学习训练营第四期]K-means聚类
K-means聚类算法聚类是一种无监督学习方法。在无监督学习中,训练集只包含{x(1),x(2),⋯ ,x(n);x(i)∈Rd}\{x^{(1)},x^{(2)},\cdots,x^{(n)};x^{(i)}\in \mathbb{R^d}\}{x(1),x(2),⋯,x(n);x(i)∈Rd},每个训练样本没有对应的标签y(i)y^{(i)}y(i)。k-meansk\text{-mean...原创 2020-03-01 17:22:46 · 363 阅读 · 0 评论 -
[深度之眼机器学习训练营第四期]机器学习系统设计
工作流程这节课以垃圾邮件分类为例,介绍了机器学习系统的整个设计和实现流程。给定电子邮件数据集,我们可以为每个邮件构造一个向量。每个向量包含10000到50000个元素,每个元素代表一个单词,这些元素都是数据集中出现频率最高的单词。如果在电子邮件中找到一个单词,则将箱梁中相应的元素设为1,否则设为0。一旦我们准备好所有的向量,就可以进行模型训练,然后使用它来判断电子邮件是否为垃圾邮件。为了提高分...原创 2020-02-11 19:13:47 · 344 阅读 · 0 评论 -
[深度之眼机器学习训练营第四期]关于机器学习应用的一些建议
机器学习算法评估模型评估在整个机器学习任务的流程中,我们需要在数据集上训练机器学习模型,找到一个比较“好”的假设。但是,有些假设在已知数据集上表现很好,在新数据上的性能却很差,错误率比较高,这也就是我们常说的“过拟合”。那么,我们如何解决这种类型的问题呢?一般来说,评价机器学习模型的性能,主要看模型在未知数据上的表现。因此,当我们拿到一个数据集以后,不能马上进行模型的训练,而是需要把数据集分...原创 2020-02-10 20:19:35 · 356 阅读 · 0 评论 -
[深度之眼机器学习训练营第四期]神经网络之参数学习
损失函数LLL表示神经网络模型的层数sls_{l}sl表示每一层神经元的数量KKK输出层神经元的数量J(Θ)=−1n∑i=1n∑k=1K[yk(i)log((hΘ(x(i)))k)+(1−yk(i))log(1−(hΘ(x(i)))k)]+λ2n∑l=1L−1∑i=1sl∑j=1sl+1(Θj,i(l))2\begin{gathered} J(\Theta) = - \frac...原创 2020-02-06 22:02:48 · 198 阅读 · 0 评论 -
[深度之眼机器学习训练营第四期]神经网络之模型表示
为什么要用神经网络?为了获得非线性假设空间,我们引入神经网络模型。之前文章提到,对于分类问题,对数几率回归结合多项式特征可以得到非线性决策边界;而将多项式特则与线性回归结合也可以拟合非线性函数。既然我们已经可以得到非线性建设空间,为什么还要引入神经网络模型呢?为了回答这个问题,假设我们的训练集有ddd个特征,一次项O(d)O(d)O(d),二次项O(d2)O(d^2)O(d2),d次项O(dd)...原创 2020-01-28 16:23:34 · 250 阅读 · 0 评论 -
[深度之眼机器学习训练营第四期]过拟合与正则化
基本概念机器学习模型面临的两个主要问题是欠拟合与过拟合。欠拟合,即模型具有较高的偏差,说明模型没有从数据中学到什么,如下左图所示。而过拟合,即模型具有较高的方差,意味着模型的经验误差低而泛化误差高,对新数据的泛化能力差,如下右图所示。通常,欠拟合是由于模型过于简单或使用数据集的特征较少导致的。相反,过拟合则是模型过于复杂或特征过多引起的。欠拟合的问题比较容易解决,而过拟合的问题则有些棘手。一...原创 2020-01-17 22:29:35 · 244 阅读 · 0 评论 -
[深度之眼机器学习训练营第四期]对数几率回归
J(θ)=1m∑i=1mCost(hθ(x(i)),y(i))Cost(hθ(x),y)={−log(hθ(x)) if y = 1−log(1−hθ(x)) if y = 0J(\theta) = \dfrac{1}{m} \sum_{i=1}^m \mathrm{Cost}(h_\theta(x^{(i)}),y^{(i)}...原创 2020-01-17 19:55:11 · 250 阅读 · 0 评论 -
[深度之眼机器学习训练营第四期]线性回归
基本概念首先看一下基本的概念与符号。x(i)x^{(i)}x(i)表示输入变量,也就是特征,y(i)y^{(i)}y(i)表示输出变量,也被称为标签或目标。二者组成的元组(x(i),y(i))(x^{(i)},y^{(i)})(x(i),y(i))就表示一个训练样本,而nnn个这样的训练样本就组成了训练集,即{(x(i),y(i));i=1,⋯ ,n}\{(x^{(i)} , y^{(i)} )...原创 2020-01-10 12:17:10 · 203 阅读 · 0 评论 -
AdaBoost算法原理及实现
AdaBoost算法输入:训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)}T={(x1,y1),(x2,y2),…,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\},其中xi∈X⊆Rnxi∈X⊆Rnx_i\in \mathcal{X} \subseteq \mathbb{R}^n,yi∈{−1,+1}yi∈{−1,+1}y_...原创 2018-07-14 17:57:42 · 1556 阅读 · 0 评论 -
K-Means算法及Python实现
聚类是一种无监督学习,它将相似的对象划分到同一个簇中。通过这样的划分,每个簇可能对应一些潜在的类别。例如,西瓜可以被划分为“深色瓜”、“浅色瓜”、“有籽瓜”和“无籽瓜”等,这些概念对于聚类算法而言事先是未知的。基于不同的学习策略,人们设计出很多类型的聚类算法,下面我们主要介绍K-Means聚类算法并使用Python实现它。相似度计算前面提到,聚类算法视图将相似的对象归为同一簇,不相似的...原创 2018-06-17 16:54:33 · 703 阅读 · 0 评论 -
《机器学习基石》课程笔记(3)
Learning with Different Output Space YY输出空间实际应用二元分类Y={−1,+1}Y = \{ -1, +1 \}信用卡分发或不分发、识别垃圾邮件和非垃圾邮件、病人有病或没病、广告是否盈利、答案是否正确多元分类Y={1,2,3,...,K}Y = \{ 1, 2, 3,..., K\}手写字体分类、图片识别、垃圾邮件更详细的分类回归Y=RY =原创 2017-11-04 15:50:41 · 496 阅读 · 0 评论 -
《机器学习基石》课程笔记(1)
什么是机器学习什么是学习?学习是人类通过观察世界积累经验进而获得相应技能的过程。而机器学习则是机器(计算机)通过计算数据,像人类一样积累经验并获得技能的过程。 机器学习更一般化的定义是Improving some performance measuer with experience computed from data.也就是机器通过计算的手段,利用积累的经验改善系统的性能。比如,让机器原创 2017-09-16 12:26:57 · 784 阅读 · 0 评论 -
kNN分类算法
kNN(k-Nearest Neighbor,简称kNN)算法是一种常用的分类于回归方法。它的工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最相近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。通常采用“多数表决”的决策规则对输入的测试样本进行分类,即选择k个最近样本中出现次数最多的类别标记作为预测结果,类似于我们常说的“近朱者赤,近墨者黑”;在回归任务中可以使用“平均法”原创 2017-08-24 21:26:22 · 5347 阅读 · 0 评论 -
决策树构建之ID3算法
决策树是一种可以对数据集进行分类的树,它要求数据集中每个属性的可能取值都是离散的。决策树中包含3种结点: 根结点,它没有入边,只有零条或多条出边。 内部结点,它有一条入边和两条或多条出边。 叶结点,有一条入边,但没有出边。 在决策树中,每个叶结点都包含一个类标号。换句话说,每个叶节点都是已经被分好的类。根结点和内部结点表示在原创 2017-03-24 13:14:57 · 2078 阅读 · 0 评论 -
《机器学习基石》课程笔记(4)
Learning is Impossible?考虑如下二元分类的例子:给出5条数据,设计一个算法找出一个g∈Hg \in H并且所有的g(xn)=yng(\mathbf{x}_n) = y_n,并且说明gg和理想的那个ff是否近似。 既然输入xn\mathbf{x}_n有3个维度,那么输入一共只有8种情况,而输出有2种情况,一共有28=2562^8 = 256种输入输出组合。我们可以找到一些h∈H原创 2017-12-20 11:11:11 · 504 阅读 · 0 评论 -
Kaggle入门之泰坦尼克号生还率预测
这是Kaggle上的一道入门题目,旨在让我们了解机器学习的大致过程。题目链接:Titanic: Machine Learning from Disaster题目大意:当年泰坦尼克号的沉没造成了很多人的死亡,救生艇不足是造成如此多人死亡的主要原因。尽管能否活下来要看运气,但是有些群体的存活概率比其他人更高。现在给出一些乘客的信息,包括他最后是否生还。根据这些信息,我们要对其他乘客是否生还进行预测。原创 2017-12-17 16:33:20 · 3676 阅读 · 2 评论 -
Logistic Regression原理及Python实现
1. 问题引入相信大家都接触过分类问题,尤其是二元分类。例如现在有一些患者(训练集)的身体情况以及是否患有心脏病的数据,要求我们根据这些数据来预测其他患者(测试集)是否患有心脏病。这是比较简单的一个二元分类问题,使用线性分类器或许会取得不错的效果。但在实际生活中,我们感兴趣的往往不是其他患者是否会犯病,而是他犯心脏病的概率是多少。很直观的想法是收集患者犯病的概率,然后利用回归模型进行概率预测。但是我原创 2018-01-03 21:12:05 · 1124 阅读 · 0 评论 -
《机器学习基石》课程笔记(2)
Perceptron Hypothesis Set 对于银行是否发送信用卡的问题,把每位顾客的年龄、年收入等特征看成一个向量x=(x1,x2,...xd)\mathbf{x} = (x_1,x_2,...x_d),计算顾客每个特征与权重的乘积之和,如果结果大于某个阈值(threshold),那么就发送信用卡,否则不发送信用卡。 根据以上的信息,我们就可以得到一个线性形式的hh,它属于假设集合原创 2017-11-05 20:30:20 · 454 阅读 · 0 评论