机器学习与数据挖掘基础概念

(一)概念及主要任务
  机器学习与数据挖掘重点在于寻找模式,这些模式应该是有意义的、有用的、自动的或半自动的。
  两个主要任务:
  · 监督学习:分类和回归
        给予已分类的数据集(x, y),找寻一个公式,可将x映射到y。
        (1)分类:y为分类变量
        (2)回归:y为连续数值变量

  · 非监督学习:聚类
        给予一个数据集,只包含x向量,找寻一个方法将数据分组,要求
        (1)组内数据尽可能相似
        (2)不同组的数据尽可能不相似

(二)数据挖掘流程
· 业务理解–business understanding
  分析业务环境,找寻数据挖掘点,决定要用到的数据
· 数据理解–data understanding
  获取部分数据,探寻数据质量,决定是否可以部署机器学习模型
· 数据准备–data preparation
  数据收集,数据清洗,数据预处理
· 建模–modelling
  应用机器学习模型
· 模型评估–evaluation
  依据准确度,F1值等手段判断模型好坏
· 部署模型–deployment
  将评估通过的模型部署到大型系统中

(三)噪音
数据不是完美的,噪音来自于:
· 数据失真
· 存在高维数据干扰
· 不一致或重复数据
解决方法:
· 重新考虑一种更好的数据采集方案
· 在建模前,对数据进行清洗、预处理
· 采用对噪音更加健壮的机器学习方法,例如组合模型

(四)数据预处理
· 数据聚合–data aggregation
  优点:减少数据量,提高维度,数据更稳定
  缺点:丢失信息
· 特征子集选取–feature subset selection
  优点:减少数据量,更快构建模型,实施分类算法简洁明了
  缺点:丢失信息,需要经验
· 特征加权–feature weighting
  增加某些、减少某些特征在模型中的影响力,通常需要经验
· 数据类型转换–converting attributes
  二分化、离散化(监督、非监督)、规范化与标准化

(五)相似性测量
两种标准:

  1. 基于距离:曼哈顿距离、欧式距离、闵可夫斯基距离、汉明距离、SMC、Jaccard
  2. 基于相似性系数:余弦相似度、皮尔森相关系数(测量线性相关性)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值