(一)概念及主要任务
机器学习与数据挖掘重点在于寻找模式,这些模式应该是有意义的、有用的、自动的或半自动的。
两个主要任务:
· 监督学习:分类和回归
给予已分类的数据集(x, y),找寻一个公式,可将x映射到y。
(1)分类:y为分类变量
(2)回归:y为连续数值变量
· 非监督学习:聚类
给予一个数据集,只包含x向量,找寻一个方法将数据分组,要求
(1)组内数据尽可能相似
(2)不同组的数据尽可能不相似
(二)数据挖掘流程
· 业务理解–business understanding
分析业务环境,找寻数据挖掘点,决定要用到的数据
· 数据理解–data understanding
获取部分数据,探寻数据质量,决定是否可以部署机器学习模型
· 数据准备–data preparation
数据收集,数据清洗,数据预处理
· 建模–modelling
应用机器学习模型
· 模型评估–evaluation
依据准确度,F1值等手段判断模型好坏
· 部署模型–deployment
将评估通过的模型部署到大型系统中
(三)噪音
数据不是完美的,噪音来自于:
· 数据失真
· 存在高维数据干扰
· 不一致或重复数据
解决方法:
· 重新考虑一种更好的数据采集方案
· 在建模前,对数据进行清洗、预处理
· 采用对噪音更加健壮的机器学习方法,例如组合模型
(四)数据预处理
· 数据聚合–data aggregation
优点:减少数据量,提高维度,数据更稳定
缺点:丢失信息
· 特征子集选取–feature subset selection
优点:减少数据量,更快构建模型,实施分类算法简洁明了
缺点:丢失信息,需要经验
· 特征加权–feature weighting
增加某些、减少某些特征在模型中的影响力,通常需要经验
· 数据类型转换–converting attributes
二分化、离散化(监督、非监督)、规范化与标准化
(五)相似性测量
两种标准:
- 基于距离:曼哈顿距离、欧式距离、闵可夫斯基距离、汉明距离、SMC、Jaccard
- 基于相似性系数:余弦相似度、皮尔森相关系数(测量线性相关性)