张志华的统计机器学习课程第一课:概率基础

本文探讨了机器学习(ML)与统计学的区别,指出ML的顶级会议是ICML。数据科学涵盖基础设施、编程和数学知识。统计机器学习(SML)结合了计算机科学、统计学和优化理论等领域。文章介绍了数据表示、降维、聚类、分类、回归等监督学习任务,并讨论了训练、验证和测试数据的角色。最后,提到了频率派与贝叶斯方法在模型参数估计上的不同观点。
摘要由CSDN通过智能技术生成

ML和statistics的区别

MLStatistics
Networks,graphs, weightsModels, Parameters,
LearningFitting(拟合), estimation(估计)
Generalization(泛化,归纳)Test Set
Supervised LearningRegression / Classification
Unsupervised Learningdensity estimation / Clusting

 

 

 

 

 

 

 

ML领域的顶级会议:ICML.

Data Science 需要掌握的知识: 1、infrastructure(底层架构);2、coing; 3、math

 

计算机科学家Michael Jordon这样定义统计机器学习。

SML:a filed that bridges computer science and statistic with ties to information theory ,signal processing ,algorithm,control theory and optimization theory.

SML = matrix+optimization+algorithm+statistic

一般data表示为n行p列的矩阵。其中n为样本数,p为每个样本的特征数,单个样本一般用列向量表示。

1.降维。有线性方法和非线性方法。

2.聚类。将若干点聚成k类。

3.分类。包括二分类和多分类。

4.回归。y是实数。

5.Ranking。

3-5称为监督学习。

数据:

training data (训练集),用于学习model的参数θ。目标函数,L(y-f(x,θ)) + λp(θ),p(θ)是对θ的约束。

validation data(验证集)用来估计λ。

Test data (测试数据)用于预测结果。

机器学习的两种方法:

1、Frequentist view(频率派)

The frequentist approach view the model parameters as unknown constents and estimaties them by matching the model to the training data using an appropriate method. 

基本思想是把模型的参数看作是未知参数,通过某种准则来估计它。

2、Bayesiam Approach(贝叶斯方法)

根据先验得出后验。

极大似然估计、点估计(最后后验估计)、贝叶斯估计(通过随机抽样),前两个都假设参数是固定值,然后去估计它,而贝叶斯估计则假设参数是随机变量。三者简单的区别:https://blog.csdn.net/feng__shuai/article/details/71170640

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值