一、机器学习概念(死气硬背的学习)
定义:机器学习是从人工智能中产生的一个重要的学科分支,是实现智能化的关键。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
分类:弱人工智能(now)、强人工智能、超人工智能
问题:机器学习与人工智能、深度学习的区别?
机器学习是一种实现人工智能的方法,其使用大量数据进行“训练”,通过各种算法从数据中学习如何完成任务。
深度学习属于机器学习的子类,是利用深度神经网络来解决特征表达的一种学习过程。
发展历程:推理期->知识期->学科形成->繁荣期
二、基本术语
机器学习流程:数据预处理(数据清洗、集成、采样)->特征工程(特征编码、选择、降维、规范化)->数据建模(回归、分类、聚类和其他问题)->结果评估(拟合量度、查准率、查全率、F1值、PR曲线、ROC曲线)
2.1数据预处理:
数据清洗:对各种脏数据进行对应方法的处理,得到标准、干净、连续的数据,提供给数据统计、数据挖掘等使用。
特征:数据完整性(信息补全)、唯一性(主键/规则去重)、合法性(设置字段内容、类型的合法规则)、权威性(不同渠道设置权威级别)、一致性(建立数据体系)
数据采样:解决数据不平衡问题(数据集类别分布不均)->过采样(随机复制少数类来增加实力数量,增加样本中少数类代表性)、欠采样(随机消除占多数的类样本来平衡分布)
数据集拆分:机器学习将数据分为三份(训练集、验证集、测试集),利用留出法(数据集分为互斥集合,注意保持划分后集合数据分布的一致性)或K-折交叉验证法(划分为k组大小相似的互斥子集,每个子集数据分布一致,且包含对应的训练和测试集)
2.2特征工程:
特征编码:对数据集中经常出现的字符串信息转化为数值形势运算(one-hot编码、语义编码)
特征选择:选取数据集中用于分类的特征
特征降维:数据降维(如图片色彩信息转RGB二维数组)
规范化:降低属性数量量级对结果的影响->标准化(减去均值求方差,再按比缩放)、区间缩放(属性缩放进指定大小的区间)、归一化(将某属性特征模长转化为1)
2.3机器学习方式
有监督学习:训练集有标签(结果),给定数据预测标签,常见任务包括分类和回归
无监督学习:训练集无标签,给定数据寻找结构,常见任务包括聚类
半监督学习:自动利用无标签样本(少量标签训练数据和大量无标签数据)提升学习性能,又分为纯半监督学习和直推学习
强化学习:给定数据,学习如何选择一系列行动,基于环境反馈进行行动
2.4机器学习方法分类
分类:贝叶斯、支持向量机(SVM)、决策树、集成学习
回归:线性回归
聚类:K-means、层次聚类
其他:神经网络
2.5机器学习评价指标
准确率:分类正确的样本个数占比
精确率:分类正确的正样本个数占所有正样本比例
召回率:分类正确的正样本个数占正样本比例
F1-Score:精确率和召回率的调和平均值
PR曲线:描述模型优劣,P->精确率,R->查全率(设置不同阈值求得不同PR值绘制PR曲线)
ps:如果PR曲线A完全包裹住曲线C则认为学习器A优于C
ROC曲线:横轴->假正例率FPR,纵轴->真正例率TPR
AUC:ROC曲线下的面积
2.6其他概念
独立同分布:假设样本空间中全体样本服从一个未知分布,则每个样本都独立地取自该样本
“奥卡姆剃刀”:若多个假设与观察一致,则选最简单的那个