机器学习与数据挖掘基础概念

最新推荐文章于 2024-03-22 22:59:59 发布

kris-luo

最新推荐文章于 2024-03-22 22:59:59 发布

阅读量325

点赞数

分类专栏：机器学习文章标签：数据挖掘机器学习数据分析

本文链接：https://blog.csdn.net/master_gogogo/article/details/115536253

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

（一）概念及主要任务
机器学习与数据挖掘重点在于寻找模式，这些模式应该是有意义的、有用的、自动的或半自动的。
两个主要任务：
· 监督学习：分类和回归
给予已分类的数据集（x, y），找寻一个公式，可将x映射到y。
（1）分类：y为分类变量
（2）回归：y为连续数值变量

· 非监督学习：聚类
给予一个数据集，只包含x向量，找寻一个方法将数据分组，要求
（1）组内数据尽可能相似
（2）不同组的数据尽可能不相似

（二）数据挖掘流程
· 业务理解–business understanding
分析业务环境，找寻数据挖掘点，决定要用到的数据
· 数据理解–data understanding
获取部分数据，探寻数据质量，决定是否可以部署机器学习模型
· 数据准备–data preparation
数据收集，数据清洗，数据预处理
· 建模–modelling
应用机器学习模型
· 模型评估–evaluation
依据准确度，F1值等手段判断模型好坏
· 部署模型–deployment
将评估通过的模型部署到大型系统中

（三）噪音
数据不是完美的，噪音来自于：
· 数据失真
· 存在高维数据干扰
· 不一致或重复数据
解决方法：
· 重新考虑一种更好的数据采集方案
· 在建模前，对数据进行清洗、预处理
· 采用对噪音更加健壮的机器学习方法，例如组合模型

（四）数据预处理
· 数据聚合–data aggregation
优点：减少数据量，提高维度，数据更稳定
缺点：丢失信息
· 特征子集选取–feature subset selection
优点：减少数据量，更快构建模型，实施分类算法简洁明了
缺点：丢失信息，需要经验
· 特征加权–feature weighting
增加某些、减少某些特征在模型中的影响力，通常需要经验
· 数据类型转换–converting attributes
二分化、离散化（监督、非监督）、规范化与标准化

（五）相似性测量
两种标准：