ML和statistics的区别
ML | Statistics |
Networks,graphs, weights | Models, Parameters, |
Learning | Fitting(拟合), estimation(估计) |
Generalization(泛化,归纳) | Test Set |
Supervised Learning | Regression / Classification |
Unsupervised Learning | density estimation / Clusting |
ML领域的顶级会议:ICML.
Data Science 需要掌握的知识: 1、infrastructure(底层架构);2、coing; 3、math
计算机科学家Michael Jordon这样定义统计机器学习。
SML:a filed that bridges computer science and statistic with ties to information theory ,signal processing ,algorithm,control theory and optimization theory.
SML = matrix+optimization+algorithm+statistic
一般data表示为n行p列的矩阵。其中n为样本数,p为每个样本的特征数,单个样本一般用列向量表示。
1.降维。有线性方法和非线性方法。
2.聚类。将若干点聚成k类。
3.分类。包括二分类和多分类。
4.回归。y是实数。
5.Ranking。
3-5称为监督学习。
数据:
training data (训练集),用于学习model的参数θ。目标函数,L(y-f(x,θ)) + λp(θ),p(θ)是对θ的约束。
validation data(验证集)用来估计λ。
Test data (测试数据)用于预测结果。
机器学习的两种方法:
1、Frequentist view(频率派)
The frequentist approach view the model parameters as unknown constents and estimaties them by matching the model to the training data using an appropriate method.
基本思想是把模型的参数看作是未知参数,通过某种准则来估计它。
2、Bayesiam Approach(贝叶斯方法)
根据先验得出后验。
极大似然估计、点估计(最后后验估计)、贝叶斯估计(通过随机抽样),前两个都假设参数是固定值,然后去估计它,而贝叶斯估计则假设参数是随机变量。三者简单的区别:https://blog.csdn.net/feng__shuai/article/details/71170640