文章目录
简单介绍机器学习
什么是机器学习
- 机器学习(Machine Learning, ML)是一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,
重新组织
已有的知识结构使之不断改善自身的性能。
为什么要使用机器学习
- 通过机器学习算法可以简化那些现有解决方案中需要大量手动调整或者规则列表超长的问题的代码,并且提升执行表现。举例:垃圾邮件的过滤
- 解决传统技术手段无法解决的复杂问题。举例:语音识别问题
- 在环境不断变化的情况下适应新的数据。举例:处理各类垃圾邮件
- 从复杂问题和海里数据中发现数据间的关联性或者是新趋势。举例:啤酒加尿布的关联性
机器学习原理
- 原理:机器自主获取事物的规律。
- 要让机器可以 “学习”,必须将生活中的数据(包括但不限于图像、文字、语音)数值化,将不同事物的变化和关联转化为运算。
- 机器学习可以成立的原因是:概念和数值、关系和运算可以相互映射。
机器学习的分类
从机器学习的角度
监督学习(知道特征和标签)
- 线性回归(LinearRegression):在特征和标签之间建立线性方程,计算每个特征的权重(weight)和最后的偏置(bias)
线性回归的损失函数:均方误差(MSE)
线性回归推广:广义线性回归(GLR):如果这个函数是单调可微函数g(.),即联系函数,例如标签Y不和特征X呈线性关系,但是ln(Y)与X呈线性关系,也可以采用线性回归方式
线性回归的正则化:分为L1正则化(Lasso)和L2正则化(Ridge),其中L2正则化更为常用
正则化:防止模型的过拟合
L1正则化是指权值向量 w 中各个元素的绝对值之和,
L2正则化是指权值向量 w 中各个元素的平方和,它对于大数值的权重向量进行严厉惩罚,倾向于更加分散的权重向量,使网络更倾向于使用所有输入特征,而不是严重依赖输入特征中某些小部分特征。 L2惩罚倾向于更小更分散的权重向量,这就会鼓励分类器最终将所有维度上的特征都用起来,而不是强烈依赖其中少数几个维度
L1和L2正则化的项都有一个常数系数α来调节损失函数的均方差项和正则化项的权重
-
逻辑回归(LogistRegression):是一种广义上的线性回归
逻辑回归与线性回归:线性回归的输出就是逻辑回归的输入
,即在线性回归的基础上加入了激活函数sigmoid(对输入进行加权求和,作用一个函数)
-
支持向量机(Support Vector Machine)
-
决策树(Decison Tree):可以认为是一些 if-else规则的集合 。决策树学习通常包括3个步骤: (1)特征选择。 (2)决策树生成。 (3)决策树剪枝。
特征选择的关键是:选取对训练数据有较强分类能力的特征。
如何进行特征选择,找到最高效的决策顺序:使用信息增益(ID3算法)或者信息增益比(C4.5算法)
信息熵公式(b=2):
信息增益g(D, A):集合D 的经验熵 H(D) 与关于特征 A 经验条件熵 H(D | A)之差。
信息增益比gR(D, A):信息增益 g(D, A) 与关于特征 A 的熵 H(D) 之比:
信息增益比本质上是对信息增益乘以一个加权系数
D3算法的局限性:
1.ID3没有考虑连续特征
2.ID3采用信息增益大的特征优先建立决策树的节点。在相同条件下,取值比较多的特征比 取值少的特征信息增益大。
3.ID3算法对于缺失值的情况没有做考虑
4.没有考虑过拟合的问题
半监督学习(知道特征和部分标签)
- 半监督学习有两个样本集,一个有标记,一个没有标记.
- 单独使用有标记样本,我们能够生成有监督分类算法
- 单独使用无标记样本,我们能够生成无监督聚类算法
- 两者都使用,我们希望在1中加入无标记样本,增强有监督分类的效果;同样的,我们希望在2中加入有标记样本,增强无监督聚类的效果.
- 一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类.也就是在1中加入无标记样本,增强分类效果
- 使用:自训练算法(Self-training),类似于模型验证:将未进行标记的样本送入分类器中输出结果
无监督学习(知道特征,但不知道标签)
- 聚类算法:K-means、EM算法