Machine Learning(ML) is a scientific discipline that deals with the construction and study of algorithms that can learn from data
机器学习是一门从数据中研究算法的科学学科
机器学习直白来讲,是根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测
机器学习就是一种模拟人决策过程的一种程序结构
机器学习是人工智能的一个分支,我们使用计算机设计一个系统,使它
能够根据提供的训练数据按照一定的方式来学习,随着训练次数增加,该系统可以在性能上不断学习和改进,通过参数优化的学习模型,能够用于预测相关问题的输出
机器学习中是无法得到一个完美函数
线性回归
逻辑回归
KNN
CART
朴素贝叶斯
SVM
K-Mean
AdaBoost
HMM
条件随机变量
- 数据收集
- 数据预处理
- 特征提取
- 模型构建
- 模型测试评估
- 投入使用(模型部署与整合)
- 迭代优化
KNN
特征工程
线性回归
w
=
(
w
1
,
w
2
,
⋯
,
w
n
,
b
)
T
x
=
(
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
n
)
,
1
)
T
h
(
x
)
=
w
T
⋅
x
w = (w_1,w_2,\cdots,w_n,b)^T \\ x = (x^{(1)},x^{(2)},\cdots,x^{(n)},1)^T \\ h(x) = w^T \cdot x
w=(w1,w2,⋯,wn,b)Tx=(x(1),x(2),⋯,x(n),1)Th(x)=wT⋅x
损失函数:
l
o
s
s
(
θ
)
=
(
y
^
i
−
y
i
)
2
loss(\theta)=(\hat y_i - y_i)^2
loss(θ)=(y^i−yi)2,其中
y
^
i
=
h
θ
(
x
i
)
\hat y_i =h_\theta(x_i)
y^i=hθ(xi)
代价函数:
C
o
s
t
(
θ
)
=
1
N
∑
i
=
1
N
(
y
^
i
−
y
i
)
2
Cost(\theta)=\frac{1}{N}\sum_{i=1}^N (\hat y_i - y_i)^2
Cost(θ)=N1i=1∑N(y^i−yi)2,其中
y
^
i
=
h
θ
(
x
i
)
\hat y_i =h_\theta(x_i)
y^i=hθ(xi)
目标函数:
O
b
j
(
θ
)
=
1
N
∑
i
=
1
N
l
o
s
s
(
y
^
i
,
y
i
)
Obj(\theta) = \frac{1}{N}\sum_{i=1}^Nloss(\hat y_i,y_i)
Obj(θ)=N1i=1∑Nloss(y^i,yi)
h
(
θ
)
=
θ
0
+
θ
1
x
1
+
⋯
+
θ
n
x
n
=
∑
i
=
0
n
θ
i
x
i
=
θ
T
x
h(\theta) = \theta_0 + \theta_1x_1 + \cdots + \theta_nx_n = \sum_{i=0}^n\theta_ix_i=\theta^Tx
h(θ)=θ0+θ1x1+⋯+θnxn=i=0∑nθixi=θTx
最终要求计算出
θ
\theta
θ的值,并选择最优的
θ
\theta
θ值构成算法公式
m i n J ( θ ) = 1 2 ∑ i = 1 m ( ε ( i ) ) 2 = 1 2 ∑ i = 1 m ( h θ ( x ( i ) − y ( i ) ) ) 2 minJ(\theta) = \frac12\sum_{i=1}^m(\varepsilon^{(i)})^2=\frac12\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)}))^2 minJ(θ)=21i=1∑m(ε(i))2=21i=1∑m(hθ(x(i)−y(i)))2
极大似然估计