机器学习概论

一、机器学习概念(死气硬背的学习)

定义:机器学习是从人工智能中产生的一个重要的学科分支,是实现智能化的关键。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

分类:弱人工智能(now)、强人工智能、超人工智能

问题:机器学习与人工智能、深度学习的区别?

机器学习是一种实现人工智能的方法,其使用大量数据进行“训练”,通过各种算法从数据中学习如何完成任务。

深度学习属于机器学习的子类,是利用深度神经网络来解决特征表达的一种学习过程。

发展历程:推理期->知识期->学科形成->繁荣期

二、基本术语

机器学习流程:数据预处理(数据清洗、集成、采样)->特征工程(特征编码、选择、降维、规范化)->数据建模(回归、分类、聚类和其他问题)->结果评估(拟合量度、查准率、查全率、F1值、PR曲线、ROC曲线)

2.1数据预处理:

数据清洗:对各种脏数据进行对应方法的处理,得到标准、干净、连续的数据,提供给数据统计、数据挖掘等使用。

特征:数据完整性(信息补全)、唯一性(主键/规则去重)、合法性(设置字段内容、类型的合法规则)、权威性(不同渠道设置权威级别)、一致性(建立数据体系)

数据采样:解决数据不平衡问题(数据集类别分布不均)->过采样(随机复制少数类来增加实力数量,增加样本中少数类代表性)、欠采样(随机消除占多数的类样本来平衡分布)

数据集拆分:机器学习将数据分为三份(训练集、验证集、测试集),利用留出法(数据集分为互斥集合,注意保持划分后集合数据分布的一致性)或K-折交叉验证法(划分为k组大小相似的互斥子集,每个子集数据分布一致,且包含对应的训练和测试集)

2.2特征工程:

特征编码:对数据集中经常出现的字符串信息转化为数值形势运算(one-hot编码、语义编码)

特征选择:选取数据集中用于分类的特征

特征降维:数据降维(如图片色彩信息转RGB二维数组)

规范化:降低属性数量量级对结果的影响->标准化(减去均值求方差,再按比缩放)、区间缩放(属性缩放进指定大小的区间)、归一化(将某属性特征模长转化为1)

2.3机器学习方式

有监督学习:训练集有标签(结果),给定数据预测标签,常见任务包括分类回归

无监督学习:训练集无标签,给定数据寻找结构,常见任务包括聚类

半监督学习:自动利用无标签样本(少量标签训练数据和大量无标签数据)提升学习性能,又分为纯半监督学习和直推学习

强化学习:给定数据,学习如何选择一系列行动,基于环境反馈进行行动

2.4机器学习方法分类

分类:贝叶斯、支持向量机(SVM)、决策树、集成学习

回归:线性回归

聚类:K-means、层次聚类

其他:神经网络

2.5机器学习评价指标

准确率:分类正确的样本个数占比

精确率:分类正确的正样本个数占所有正样本比例

召回率:分类正确的正样本个数占正样本比例

F1-Score:精确率和召回率的调和平均值

PR曲线:描述模型优劣,P->精确率,R->查全率(设置不同阈值求得不同PR值绘制PR曲线)

ps:如果PR曲线A完全包裹住曲线C则认为学习器A优于C

ROC曲线:横轴->假正例率FPR,纵轴->真正例率TPR

AUC:ROC曲线下的面积

2.6其他概念

独立同分布:假设样本空间中全体样本服从一个未知分布,则每个样本都独立地取自该样本

“奥卡姆剃刀”:若多个假设与观察一致,则选最简单的那个

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值