一、
1.1
模型选择问题:
机器学习找的都是概率最优的。
概率最接近正确的。
常用方法:
统计假设检验:
为学习器性能比较提供最要依据。
1.2
线性模型
定义:
线性模型试图学得一个通过属性的线性组合来进行预测的函数
f ( x ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + . . . . . . . . + w d x d + b ; f(x)=w1x1+w2x2+w3x3+........+wdxd+b; f(x)=w1x1+w2x2+w3x3+........+wdxd+b;
这里的公式,每个x1,x2,x3,x4都表示一个属性,如西瓜的颜色,瓜蒂等。
可以简化一下:写成向量形式:
f
(
x
)
=
w
T
x
+
b
f(x)=w^Tx+b
f(x)=wTx+b
线性回归的目的:
找到一个方程,
f
(
x
i
)
=
w
x
i
+
b
f(xi)=wxi+b
f(xi)=wxi+b使得
f
(
x
i
)
等价
y
i
f(xi)等价yi
f(xi)等价yi
离散属性的处理:
若有序(Order),则连续化;否则,转化为k维向量。
如 要处理高中低;
可以把高当成1,中看成0.5,低看成0.
然后转成k维向量。
若用离散的东西处理连续的信号,需要先把离散的东西连续化。
如果用[x1; x2]中用分号表示,则是列向量。
如果用[x1, x2]中用逗号表示,则是行向量。