机器学习笔记(吴恩达)

Lesson 1

  1. 机器学习介绍

机器学习的应用

(1)数据挖掘(网页点击数据,医疗数据,生物,工程等);
(2)不能手动编程的应用(自动直升机,手写识别,自然语言处理,计算机视觉等);
(3)自定义编程(亚马逊,Netflix产品推荐);
(4)理解人类学习(大脑,真正的AI)。


什么是机器学习?

Arthur Samuel(1959):机器学习为,在进行特定编程的情况下,给予计算机学习能力的研究领域。
Tom Mitchell(1998):机器学习,是一个好的学习问题,定义如下:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。
例如西洋棋的例子:
经验E:程序上万次的自我练习;
任务T:下棋;
性能度量值P:它与一些新的对手比赛时,赢得比赛的概率。


机器学习算法

常见算法分类:监督学习,无监督学习。

监督学习

监督学习又叫回归问题。(应该是回归属于监督的一种),其基本思想是,监督学习中,对于数据集中的每个数据,都有相应的正确答案,(训练集)算法就是基于这些来做出预测。比如房价,或肿瘤的性质等。

回归问题:通过回归来预测一个连续值输出。

例如,我有1000件衣服,预测未来三个月我能卖出多少件衣服。衣服数量是一个实际的值,连续的值,也把卖出的数量当成连续的值。是回归问题。

分类问题:目标是预测离散值输出。

如判断每个用户账户是否被黑客攻击过,被攻击过记为1,未被攻击过记为0,则可表示成离散值。是分类问题。


(a) Regression - Given a picture of a person, we have to predict their
age on the basis of the given picture

(b) Classification - Given a patient with a tumor, we have to predict
whether the tumor is malignant or benign.

目的:做分类和预测。
如利用已有的肿瘤大小(这是一个特征),通过分类后,给定一个肿瘤大小,预测其是良性肿瘤还是恶性肿瘤。
那么当特征无限多时,如何处理甚至存储无限多的特征?
使用支持向量机算法,存在一个简洁的数学方法,能让电脑处理无限多的特征。

无监督学习

在监督学习中,我们已经被告知正确答案是什么。在无监督学习中,没有属性或标签的概念,我们只有一个数据集,但不知道数据是干什么的,你能从中找到什么某种结构吗?
无监督学习中的一种算法是聚类算法。只给定一个数据集,通过学习将数据集分为不同的类别。
如:从社交网络分析出不同好友组和仅仅是一般熟悉的人等;
谷歌新闻,通过聚类算法将相同故事的新闻分类到一起;
根据用户数据,做市场细分等。

Unsupervised learning allows us to approach problems with little or no idea what our results should look like. We can derive structure from data where we don’t necessarily know the effect of the variables.

We can derive this structure by clustering the data based on
relationships among the variables in the data.

With unsupervised learning there is no feedback based on the
prediction results.


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值