Coursera-Machine-Learning-Review-W1

最新推荐文章于 2022-01-11 22:52:29 发布

Avoke17

最新推荐文章于 2022-01-11 22:52:29 发布

阅读量252

点赞数

分类专栏： Machine_Learning 文章标签：机器学习 Course Review

本文链接：https://blog.csdn.net/Avoke17/article/details/81053945

版权

Machine_Learning 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

这个假期开始学习Machine-Learning相关的知识，进行了几周之后感觉由于课程对相关的很多概念和计算进行了包装，课程理解上以及编程作业上经常会有一些疑点，需要进行思考才能比较通透的理解，并且由于英文Online的原因，部分解释感觉也需要进行一些翻译，所以这里会更新一些个人对于本课程同步的理解，以及包括部分quiz和编程作业较为详细的代码层面和理论层面的解答。如有问题，还望多加指正！

Introduction

从实际来看，垃圾邮件的辨别分类，照片的识别等一系列各种各样的任务都是机器学习，其流行的原因在于网络和自动化算法的爆炸性增长，通过大量数据集，我们可以通过编程训练机器让其自主的学会各种“技能”，包括笔迹的辨认，自然语言处理等等。

从概念来看，我们可以通过一个定义来认识机器学习：

主要关注下面的定义：“一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，当其性能在经验

E的指导下，解决任务T的性能度量值P有所提升。”看起来比较难懂，不过意思大概就是通过成千上万次自我训练

（经验E），使机器能够以更好的性能解决任务。

Quiz：Suppose your email program watches which emails you do or do not mark as spam, and based on that learns how to better filter spam. What is the task T in this setting?

很明显task T即为对邮件是否为垃圾邮件进行分类

Answer：Classify emails as spam or not spam

课程准备介绍两类主要的机器学习算法：监督学习与无监督学习，通俗解释如下，后文还会继续详细说明：

监督学习：教机器完成任务。

无监督学习：让机器自己学习完成任务。

Supervised Learning (监督学习)

此算法需要部分数据集已有正确答案，我们需要通过多种特征和已有答案的数据集进行训练，本课程中介绍了

通过回归进行预测输出，简单的例子如下图：

下图是一个分类问题的例子：

Quiz：You’re running a company, and you want to develop learning algorithms to address each of two problems. Problem 1:You have a large inventory of identical items. You want to predict how many of these items will sell over the next 3 months.

Problem 2: You’d like software to examine individual customer accounts, and for each account decide if it has been hacked/compromised. Should you treat these as classification or as regression problems?

阅读题目可以发现，问题一是对结果值的预测，即接下来三个月有多少商品会被卖出，属于回归问题。

问题二是对账户的分类，判断属于hacked/compromised，属于分类问题。

Answer：Treat problem 1 as a regression problem, problem 2 as a classification problem

Unsupervised Learning (无监督学习)

此算法通过分析训练集，利用聚类算法将其训练集分成不同的聚类，例如搜索引擎搜索相关的内容，分为新闻，体育，娱乐等等聚类；亦或是从一段多条音轨叠加的音频中分成不同单独的音轨等等。简单的例子如下图：

Quiz：Of the following examples, which would you address using an unsupervised learning algorithm? (Check all that apply.)

Given email labeled as spam/not spam, learn a spam filter.

训练集有正确答案（spam or not），不属于无监督学习

Given a set of news articles found on the web, group them into sets of articles about the same stories.

聚类算法，属于无监督学习。

Given a database of customer data, automatically discover market segments and group customers into different market segments.

聚类分析客户，属于无监督学习。

Given a dataset of patients diagnosed as either having diabetes or not, learn to classify new patients as having diabetes or not.

训练集有正确答案（diabetes or not），不属于无监督学习。

Answer：B&C

Model and Cost Function

对于各种算法，我们需要一个通用的模型(Model)，比如训练集的大小等等，这里介绍一些通用的表示。

图中m代表训练样本个数，x为输入（特征），y为输出（目标），(x,y)表示一个训练样本，带有上标i的可以指明第i个训练样本。

我们通过特征x，利用假设h获得预测的值，这个h即为线性回归模型，右图即为一个单变量线性回归。

对于我们的假设函数，我们可以观察到两个参数值θ0和θ1，他们影响着我们的假设函数，我们的目标是通过选择

适合的参数值，使我们的假设更加接近于“标准答案”，这里引入了一个代价函数(Cost Function)，目的为最小化

代价函数的值。

Parameter Learning

定义了代价函数之后，我们需要一个算法来最小化代价函数的值，使我们的假设函数更加接近正确值，这里引入一个梯度下降算法，基本思想类似于我们通过求导求一个函数的最小值，在我们的代价函数图像上，我们顺着函数值下降最快的方向改变参数值，使其达到最低点，即导数为0的位置，此时即达到了代价函数值最小的点。下图为相关定义，其中α为学习速率，即每次调整参数的“步伐大小”。同时需要注意的是。在更新参数值的时候需要同步更新，这一点很重要。

更新过程即为一直迭代上式直到其收敛，收敛过程与学习速率相关，并且梯度下降可能会因为α的选取不当产生其他情况。

需要注意的是，我们无需担心学习速率α的选取影响到步伐的大小，当多次迭代接近局部最低点时，代价函数对参数求偏导的这一项自然会减小，所以不需要随着迭代减小学习速率的值。

Linear Algebra Review

这一部分主要是介绍了矩阵和向量运算，相信大部分同学已经了解了，这里主要摘录一些Octave相关的操作，以防后面遗忘了，

A = [1, 2, 3; 4, 5, 6; 7, 8, 9; 10, 11, 12]
[m,n] = size(A)

A = [1, 2, 4; 5, 3, 2]
B = [1, 3, 4; 1, 1, 1]
s = 2
% See how element-wise addition works
add_AB = A + B 
% See how element-wise subtraction works
sub_AB = A - B
% See how scalar multiplication works
mult_As = A * s
% Divide A by s
div_As = A / s
% What happens if we have a Matrix + scalar?
add_As = A + s

A = [1, 2, 3; 4, 5, 6;7, 8, 9] 
v = [1; 1; 1] 
% Multiply A * v
Av = A * v

A = [1,2;4,5]
B = [1,1;0,2]
% Initialize a 2 by 2 identity matrix
I = eye(2)
% The above notation is the same as I = [1,0;0,1]
% What happens when we multiply I*A ? 
IA = I*A 
% How about A*I ? 
AI = A*I 
% Compute A*B 
AB = A*B 
% Is it equal to B*A? 
BA = B*A

A = [1,2,0;0,5,6;7,0,9]
% Transpose A 
A_trans = A' 
% Take the inverse of A 
A_inv = inv(A)
% What is A^(-1)*A? 
A_invA = inv(A)*A

Avoke17

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Coursera-Machine-Learning-Review-W1

这个假期开始学习Machine-Learning相关的知识，进行了几周之后感觉由于课程对相关的很多概念和计算进行了包装，课程理解上以及编程作业上经常会有一些疑点，需要进行思考才能比较通透的理解，并且由于英文Online的原因，部分解释感觉也需要进行一些翻译，所以这里会更新一些个人对于本课程同步的理解，以及包括部分quiz和编程作业较为详细的代码层面和理论层面的解答。如有问题，还望多加...
复制链接

扫一扫