机器学习是专门研究计算机模拟和实现人类的学习行为,以获得新的知识或技能,重新组织已有的知识结构来改善自身性能的学科。
神经元六个基本特征:
1)每个神经元都有一个多输入单输出的信息处理单元;
2)神经元之间的联接强度决定信号传递的强弱;
3)神经元之间的联接强度是可以随训练改变的;
4)信号输入可以是起刺激作用的,也可以是起抑制作用的;
5)忽略时间整合作用和不应期;
6) 每个神经元具有空间整合特性和可以有一个“阈值”。
机器学习方法
有监督学习(supervised learning):从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。常见任务包括分类与回归。
无监督学习(unsupervised learning):没有标注的训练数据集,需要根据样本间的统计规律对样本进行分析,常见任务为聚类等。
半监督学习(Semi-supervised learning):结合少量的标注训练数据和大量的未标注数据进行数据的分类学习。
增强学习(Reinforcement Learning):外部环境对输出只给出评价信息而非正确答案。
多任务学习(Multi-task Learning):把多个相关的任务放在一起同时学习。
损失函数loss function
在深度学习中,损失函数是用来衡量一组参数质量的函数,衡量的方式是比较网络输出和真实输出的差异。
损失函数不能使用测试数据衡量网络的性能。损失函数用来指导训练过程,使得网络的参数向损失降低的方向改变。
训练过程: 随机梯度下降法
试图找到一组参数使得损失函数的值越小越好,调整参数的大小和方向取决于损失函数相对于参数的偏导数
特性
1)当网络的输出和真实输出一致,最小值为0。 2)理想情况:convex凸函数
常见的损失函数
回归:网络输出需要一个连续的数值:绝对值误差,平方差
分类:网络的输出为一个类别:hinge loss,Cross-entropy loss
绝对误差函数Absolute value, L1-norm。得到的解比较稀疏,高维任务中表现比较好,预测速度快
方差函数Square error, Euclidean loss, L2-norm。比绝对误差得到的结果更精确,对大的误差输出更敏感
激活函数
神经网络如何解决二分类问题
过拟合与欠拟合
BP网络基本原理
应用场景与挑战
Alphago使用蒙特卡罗树搜索与两个深度神经网络相结合。无人驾驶包括三个环节:感知、决策和控制。搜索引擎,信息推荐,图片识别,用户分析。
面临的挑战
◆数据稀疏性:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏。
◆高数量和高质量标注数据需求:获取标定数据需要耗费大量人力和财力。而且,
人会出错,有主观性。
◆冷启动问题:对于一个新产品,在初期,要面临数据不足的冷启动问题。
◆泛化能力问题:训练数据不能全面、均衡的代表真实数据。
◆模型抽象困难:总结归纳实际问题中的数学表示非常困难。
◆模型评估困难:在很多实际问题中,很难形式化的、定量的评估一个模型结
果的好坏。
◆寻找最优解困难:要解决的实际问题非常复杂,将其形式化后的目标函数也
非常复杂,往往在目前还不存在一个有效的算法能找到目标函数的最优值。
机器学习准备
数据清洗:对各种脏数据进行对应方式的处理,得到标准、干净、连续的数据,提供给数据统计、数据挖掘等使用。保证数据的完整性,唯一性,合法性,权威性,一致性。
数据采样:很多情况下,正负样本不平衡
正负样本不平衡处理办法
正样本 >> 负样本,且量都挺大 => downsampling
正样本 >> 负样本,量不大 =>
1)采集更多的数据
2)上采样/oversampling(比如图像识别中的镜像和旋转)
3)修改损失函数/loss function
过采样(Over-Sampling)通过随机复制少数类来增加其中的实例数量,从而可增加样本中少数类的代表性。
欠采样(Under-Sampling)通过随机地消除占多数的类的样本来平衡类分布;直到多数类和少数类的实例实现平衡。
数据集拆分:训练数据集(train dataset),验证数据集(validation dataset), 测试数据集(test dataset)。拆分方法:留出法,K-折交叉验证法
特征选择
原因:1)冗余:部分特征的相关性太高,消耗计算性能。2)噪声:部分特征对预测结果有负影响
特征选择方法:
过滤型:评估单个特征和结果值之间的相关程度。排序留下Top相关的特征部分。
包裹型:把特征选择看做一个特征子集搜索问题,筛选各种特征子集,用模型评估效果。典型算法为:“递归特征消除”
嵌入型:根据模型来分析特征的重要性。最常见方式为用正则化来做特征选择。
特征降维:主成分分析(PCA),线性判别分析(LDA)
特征编码:独热编码,语义编码
规范化方法:标准化,区间缩放,归一化