1、机器学习中的模型
组合特征的方式:
- 非参数化:如KNN
- 参数化(权重)
学习知识——修正知识(损失函数)——应用
提取特征描述样本X——训练——不成熟模型——迭代优化——理想模型
2、特征工程、回归模型、模型工程
两种特征数据:数值特征数据、类别特征数据
数据预处理:处理数据缺失、归一化数值特征数据、按特征标签展开类别/特征数据
构造新特征的数学意义:
增加特征维度,构造出模型表达不出来的内在表达式
特征“非线性”表达:本身非线性因素、特征之间非线性关联、影响分类结果
本身:多项式(高次方,表达能力增强)、离散化(区间划分、逼近真实)
3、欠拟合与过拟合
测试集错误:高—低—高
模型适应力:高-低
训练集错误:高-低
4、NP-Complete的性质
- 想要有效率地(指拥有多项式时间O(n^k)时间复杂度的确定性算法)解决一些NP难题,目前无法做到
- 利用Choice(),集合NP可以包含一部分这样的难题(如满足性问题)
- 多项式时间转换的关系可以被用来讨论这些难题之间的关系
- 满足性问题可以在多项式时间内转换成NP-Hard和NP-Complete中的任意一个难题
- 任意一个NP内的问题都可以在多项式时间内被转换成满足性问题
5、逼近算法
- 最小点覆盖问题
- 装箱问题
- 平面旅行商问题
6、随机算法
- 拉斯维加斯算法
- 蒙特卡洛算法