吴恩达机器学习
文章平均质量分 88
浅浅ch
这个作者很懒,什么都没留下…
展开
-
10月29日-吴恩达机器学习P107-112
(一)MapReduceMapReduce用于解决大规模数据问题。1、原理概述在批量梯度下降中更新θ的式子表达如下。假定m=400即有400条训练样本,共有4个电脑来处理这些数据,因此,我们将这些样本数据划分成4个子集。第1台电脑处理前100个训练样本,将求和部分记录为tempj(1);第2台电脑处理样本101-200,计算tempj(2)…然后将temp(1)、temp(2)、temp(3)、temp(4)发给中心服务器,由它完成参数θ的更新操作。最终处理式子等同于批量梯度下降的那个式子。原创 2021-11-03 15:23:12 · 273 阅读 · 0 评论 -
10月28日-吴恩达机器学习P101-106
(一)协同过滤算法预处理之均值规范化1、假设有一个用户Eve没有对任意一部电影进行评价,假设n=2我们要学习两个特征变量,那么第5个用户的参数向量θ(5)也是一个二维向量。然后我们可以看这个优化目标函数,对于第一项,因为r(i,j)都=0(没有给电影打过分),那么这一项为0;那么只有最小化第3项正则化项,那么最终θ(5)可能还是=[0 0],因为没有数据让参数远离0,正则化项会尽量小。那么用户Eve对所有电影评分预测都为0,是无效预测。2、均值归一化(1)表示出矩阵Y后,计算每部电影的平均评分,得原创 2021-11-02 16:44:05 · 380 阅读 · 0 评论 -
10月27日-吴恩达机器学习P94-100
(一)多变量高斯分布1、给定一些正常的样本点,x1为CPU负载,x2为内存使用,分别服从高斯分布。给定一个预测样本,即这个绿色点,如果只从左边这个图看,这个绿色点是在正常样本的范围之外的,是异常的(因为正常样本点都是CPU负载高,同时内存使用也会很高;但是这个绿色点是内存使用很高,但CPU负载却很低)。但是分别在x1的高斯图、x2的高斯图中它都处于高频次部分,被判定为正常的。这是因为我们的异常检测算法不会意识到这个蓝色大圈才是高频部分。相反地,它认为最中间这部分(最里面那个粉色圈)是最高频,然后以此原创 2021-11-01 14:19:50 · 164 阅读 · 0 评论 -
10月26日-吴恩达机器学习P88-93
(一)异常检测1、假设你是一个飞机引擎制作商,需要对生产的飞机引擎进行质量监控测试。需要测试引擎的一些特征变量,包括引擎运转时产生的热量x1、引擎的振动x2…等等。这样就有了新的数据集{x(1),x(2),…x(m)},如果绘制在图上就是这些红色叉的点。假设一个新的飞机引擎特征集为Xtest,刚被生产出来,需要检测。由绿点标出。如果这个绿点在红色叉群比较近,可以认为它是正常的;如果比较远,可以认为它是有故障的。2、更正式的定义如果我们有m个正常样本,我们需要知道Xtest是否是正常的?我们需要对x原创 2021-10-30 15:27:26 · 469 阅读 · 0 评论 -
10月25日-吴恩达机器学习P78-87
(一)优化目标1、原创 2021-10-29 15:36:26 · 246 阅读 · 0 评论 -
10月24日-吴恩达机器学习P72-77
(一)理解大间隔分类器的数学原理1、向量内积的知识向量u的范数||u||等于向量u的长度,向量u表示在坐标轴上时其长度可以用这个根式表示。u向量乘以v向量等价于:v在u上的投影长度p乘以||u||,与u1v1+u2v2的结果是一样的。注意,在u与v的夹角大于90度时,p<0,向量内积也小于0。2、SVM决策边界我们先做一点简化,假设θ0=0,也就是忽略截距。假设特征数即n=2,这样我们就有两个特征量x1和x2。那么优化目标可以变成向量θ的范数的平方的1/2的最小化。而下面的θTx>原创 2021-10-28 16:13:03 · 385 阅读 · 0 评论 -
10月23日-吴恩达机器学习P65-71
(一) 确定执行的优先级1、原创 2021-10-27 20:35:13 · 176 阅读 · 0 评论 -
10月22日-吴恩达机器学习P56-64
(一)神经网络算法的总体回顾1、训练一个神经网络,首先要选择一个合适的网络结构:对于输入层,输入层单元的个数等于特征向量x的维度;对于输出层,单元个数取决于要分成多少类。比如,你要输出的类型有y属于{1,2,3,…,10}有10种,那么输出层就有10个单元,y=5我们通常输出的就是类似于下面表示的0-1向量;对于隐藏层,可以只有一个隐藏层,也可以>1个隐藏层。当隐藏层的个数>1时,这些隐藏层的单元数要一样,而且隐藏层的单元数一般等于特征特征向量x的维度,或呈它的倍数。一般来说,隐藏层的原创 2021-10-24 16:59:22 · 210 阅读 · 0 评论 -
10月21日-吴恩达机器学习P49-55
(一)用神经网络解决多元分类问题1、举例例如,我们想用训练的神经网络给图像分类,将自动识别行人、汽车、摩托车、卡车。那么我们的输出层将设置为四种矩阵,分别对应这四种分类结果。相当于四个模拟分类器,只不过结果y(i)不再是简单地对应1,2,3,4,而是四种向量。2、代价函数假设当前有这样一个训练集,其中有m组训练样本。设L为这个神经网络的总层数,则L=4;用SL表示第L层的单元数,也就是神经元的数量,其中不包括第L层的偏差单元。有两种分类,一种是二元分类,一种是多元(K元)分类:如果是二元分类,y=原创 2021-10-23 17:12:37 · 111 阅读 · 0 评论 -
10月20日-吴恩达机器学习P40-48
(一)正则化思想1、正则化思想可以看到,当我们引入高阶进行拟合时,很容易出现过拟合的情况。那么如果我们惩罚θ3、θ4使之结果变得非常小,这样的影响就消除了。也就是说,首先,这是我们的优化目标,即我们要最小化其均方误差代价函数。如果我们在此之上加上θ3、θ4及1000这个很大的系数,那么我们最小化这个式子的时候必须使得θ3、θ4很小很小,约等于0,就好像没有这两项一样。那么它还是接近于左边这个二次函数,只不过加上了一些很小的项。以预测房屋价格为例:假设我们现在有100个特征xi,包括房屋大小、楼层数原创 2021-10-20 21:21:44 · 118 阅读 · 0 评论 -
10月19日-吴恩达机器学习P34-39
(一)决策边界1、Logistic回归函数(也叫sigmoid函数)中hc塔(x)的值是:给定x和参数C塔时y=1的估计概率。如果这个值>=0.5,我们最终预测y=1;如果这个值<0.5,我们最终预测y=0。也就是说:如果z(C塔x)大于0,最终预测y=1;如果z(C塔x)小于0,最终预测y=0。2、举例例1:假设我们有这样一个训练集,且已经选择好了C塔0、C塔1、C塔2的值(后期会讲如何选择)。那么hc塔(x)的值=0.5的地方,也就是这条直线,被称为决策界限(Decisio原创 2021-10-20 15:00:02 · 207 阅读 · 0 评论 -
10月18日-吴恩达机器学习P29-33
(一)绘制图像1、绘制图像用命令plot(x,y);但如果想在一幅图上绘制两条曲线,那么绘制完后补充命令hold on;再绘制另一条曲线,还可以用’r’标注这条曲线为红色;用xlabel标签标注横轴,用ylabel标签标注纵轴;legend命令在右上角标注两种曲线分别代表什么;用title标注图表标题。这样绘制出来的图像是这样的:如果你想把这张图片保存到桌面,可以输入命令:2、如果你想关闭当前作图,输入close即可;如果你想使这两个图分开绘制,可以分别给它们命名figure1、figure原创 2021-10-18 21:11:11 · 154 阅读 · 0 评论 -
10月17日-吴恩达机器学习P27-28
(一)Octave–移动数据1、size()、length()命令size(A)得到矩阵A的大小,即几行几列;size(A,1)表示几行,size(A,2)表示几列。length(v)一般用于求向量的维度,也可以求一般矩阵中行数列数中较大的那个数。2、下载文档中的数据将存在电脑上的某个数据文件featuresX.dat和priceY.dat(假设这两个文件目前放在我桌面)下载到Octave中怎么做:>>pwd>>cd 'C:\Users\chen\Desktop'>原创 2021-10-17 18:28:11 · 150 阅读 · 0 评论 -
10月17日-吴恩达机器学习P23-26
(一)正规方程1、在此之前,我们一直使用的线性回归方法是梯度下降法,为了最小化代价函数J(C塔),我们使用梯度下降的多次迭代,来收敛到全局最小值;相反,正规方程提供了一种求C塔的解析求法,可以直接一次性地求解C塔的最优值。接下来讲一下正规方程的直观原理:因为最优点的导数是0,如果我们把C塔当作参数,那么只要对这个函数式求导,找到使之等于0的C塔值即可。该图上面是只有一个特征量C塔时的情况,下面是推演到一般情况(这时C塔是一个向量)。2、如何对一般情况下的式子求解呢?(注意:用正规方程法是不需要进行特原创 2021-10-17 16:32:05 · 228 阅读 · 0 评论 -
10月16日-吴恩达机器学习P17-22
(一)矩阵的逆和转置1、只有方阵(n*n维度)才有逆矩阵,定义如下:没有逆矩阵的矩阵通常被叫做"singular"(奇异矩阵)或"degenerate"(退化矩阵)。2、A12=B21,A矩阵的行变成B矩阵的列,A矩阵的列变成B矩阵的行。即为矩阵的转置。...原创 2021-10-16 21:23:15 · 580 阅读 · 0 评论 -
10月15日-吴恩达机器学习P11-16
1原创 2021-10-15 20:52:40 · 77 阅读 · 0 评论 -
10月14日-吴恩达机器学习P5-10
(一)模型描述以上一节中讲到的房价预测问题为例,我们需要从以下数据集(这里称为训练集)中找到一条线性函数表示预测规律。在上面的训练集中一共有47条训练数据(47个样点),m表示训练样本的数量,那么m=47;x表示输入变量/特征,y表示输出变量/特征值(也是我们要预测的值)。(x,y)表示一条训练样本;也就是说,我们想通过训练集得到hypothesis假设函数(专业术语),表示为h。x是房子大小,作为输入值;y是房子价格,预测值。而h是从x到y的映射函数。这里我们暂时先拟合h成一个线性函数,通常这原创 2021-10-15 15:50:37 · 106 阅读 · 0 评论 -
10月14日-吴恩达机器学习P1-4
(一)机器学习前言机器学习例子:数据库挖掘自动化/网络发展带来的大型数据集如:网页点击数据、病例、生物、工程不能手工编程的应用程序如:自动直升机、手写识别、大部分自然语言处理(NLP)、计算机视觉自我定制程序如:亚马逊、网飞的产品推荐(根据客户喜好学习推荐相关产品)理解人类学习(大脑,真实的AI)(二)机器学习算法分类1、监督学习(给定一些样本数据计算机由此学习)例1:房价预测问题(给出一些数据样本(红色叉叉),计算机决定是用直线还是曲线拟合,预测现在750平米的房子售价是多少)原创 2021-10-14 15:36:03 · 105 阅读 · 0 评论