监督学习
- 利用一组已知类别的样本,调整算法的参数,使其达到所要求性能的过程。也成为监督训练或有教师学习。也就是说,所使用的数据集带有标签或类别,并且标签是正确的。
特征工程
在机器学习中,特征的数量和质量对结果有很大的影响,实际上,特征的质量远比数量重要。要注意的是,特征的数量不是越多越好:
- 增加了算法的复杂度和运行时间
- 简单的模型更具有鲁棒性
- 有用的维度数量少的时候可解释性更强
关于特征工程的指导方法: - 特征选取
所谓选取,就是从n个特征中选择k个,剩余的(n-k)个特征摄取 - 特征提取
所谓提取,就是将原本的n个特征进行运算,得到新的k个特征(比如特征的相加等运算)。
非监督学习
非监督学习,就是对于为加标签或类别的数据,试图找到其隐藏的规律。比如,拿到一本没有笔记的课本,我们需要手动找出其中的知识点。
实例:聚类任务
把相似的对象通过静态分类的方法分成不同的子集,相同子集中的对象都具有相似的一些属性。
常见算法:
回归算法
- 对数值型连续随机变量进行预测和建模的监督学习算法(即最后输出的特征向量的标签是连续值)
- 回归算法的典型例子就是函数的拟合问题,即用最小二乘法计算散点图的最佳拟合曲线。
- 我们平时接触的多是单变量的回归分析,而在机器学习中特征向量往往是多个维度的,因此机器学习中的回归问题会更为复杂。
上面展示了回归问题中的一维回归模型。给出一个散点图,找到拟合最好的函数。在这个例子中,拟合的函数是一个线性的函数。。
决策树算法
概念
决策树(Decision Tree)是在已知各情况发生概率的基础上,通过构成决策树来求取净现值≥0的概率,评价项目风险,判断其可行性的决策分析方法。
- 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
假设有人跟你借钱,你需要考虑的是他是否有能力偿还。对他的条件分析可视化后,就得到了上图的决策树。通俗的描述就是,对于目标选取一个特征,对特征所有可能的取值进行一次决策;如果需要进一步进行决策,就再选取一个特征进行相同步骤,知道得出最终决策为止。
分类
决策树的分类主要依据属性的划分
- ID3决策树
- C4.5决策树
- CART决策树
特点
- 优点
1.能够进行可视化分析,能以图例的方式展示出来。2.可解释性强,决策规则和决策链可视性好。3.能够处理缺失数据。 - 缺点
1.容易忽略属性之间的相关性。2.类别太多时,错误可能会增加
信息熵
知识补充:
- 随机事件:在随机实验中,有可能发生也有可能不发生的事件。在大量重复实验中具有某种规律性的事件。
- 随机事件的信息:对于一个随机变量X,它的每一个可能值都可看作是一个信息。每当X的一个可能值被观察到,就称不确定性减少了,即信息增加了
记 ( X = x k ) = p k , 则 当 X = x k 发 生 后 信 息 增 益 量 : I ( x k ) = l o g 1 p k = − l o g p k 以 2 为 底 时 , 单 位 为 b i t ; 以 e 为 底 时 , 单 位 为 n a t 。 推 论 : 当 p k = 1 时 , I ( p k ) = 0 ; 0 ≤ p k ≤ 1 , 因 此 I ( p k ) ≥ 0 ( 事 件 发 生 不 会 导 致 信 息 损 失 ) 小 概 率 事 件 所 携 带 的 信 息 更 多 ! ! ! 记(X=x_k)=p_k,则当X=x_k发生后 \\ 信息增益量:I(x_k)=log\frac{1}{p_k}=-logp_k \\ 以2为底时,单位为bit;以e为底时,单位为nat。 \\ 推论:当p_k=1时,I(p_k)=0; \\ 0≤p_k≤1,因此I(p_k)≥0(事件发生不会导致信息损失) \\ 小概率事件所携带的信息更多!!! 记(X=xk)=pk,则当X=xk发生后信息增益量:I(xk)=logpk1=−logpk以2为底时,单位为bit;以e为底时,单位为nat。推论:当pk=1时,I(pk)=0;0<