机器学习算法与流程

最新推荐文章于 2024-09-27 19:00:00 发布

羅212

最新推荐文章于 2024-09-27 19:00:00 发布

阅读量773

点赞数 11

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/2302_81695297/article/details/141998638

版权

机器学习流程

1.机器学习是一门容易但精通难的学科

2.机器学习分析人员需要掌握行业知识以了解业务流程、理解数据背后的隐含信息以合理解
读数据、从变化的角度和时间维度把握需求以确定使用哪些数据，这是数据分析的基础

3.机器学习的主要流程是明确分析目标、数据收集、数据预处理、建模分析、结果评估、部
署使用以及学习更新

机器学期怎么做

1.明确数据分析目标（需要与用户进行充分的沟通）

包括项目主题、项目范围、项目目的、项目内容（结合客户细分模型，结合各部门需求对客户细分群进行详细分析，协助市场经营部进行相关服务、市场活动的策划）

2.数据收集

收集相关数据，包括内部数据和外部数据（外部数据可以通过爬虫、购买或交易方式获得），充足全面的高质量数据是机器学习的基础

3.数据预处理

为了保证数据的质量，必要的数据治理是需要的

4.数据建模

此阶段是机器学习的核心部分，使用精巧复杂的分析方法从数据中提取知识，包括选择建模技术、生成测试设计以及构建和评估模型，数据建模需要使用合适的建模方法或算法。

5.效果评估

6.部署使用更新

机器学习常用算法

一、监督学习算法

1. 线性回归：

- 用于预测连续值输出。
- 原理是通过寻找输入特征与输出变量之间的线性关系，最小化实际输出值与预测值之间的误差平方和。
- 应用场景广泛，如房价预测、销售预测等。
2. 逻辑回归：

- 用于分类问题，预测离散的类别标签。
- 基于逻辑函数将输入特征映射到一个概率值，判断属于某个类别的可能性。
- 常用于二分类问题，如垃圾邮件识别、疾病诊断等。
3. 决策树：

- 以树状结构进行决策。
- 通过对特征进行划分，选择最优特征和划分点，使每个叶子节点尽可能纯，即属于同一类别或具有相似的输出值。
- 可用于分类和回归问题，易于理解和解释。
4. 随机森林：

- 由多个决策树组成的集成学习算法。
- 每个决策树独立进行训练，最终结果通过投票或平均等方式得到。
- 具有较高的准确性和鲁棒性，能处理高维度数据。
5. 支持向量机（SVM）：

- 用于分类和回归问题。
- 通过寻找一个超平面，将不同类别的数据点尽可能分开，同时使间隔最大化。
- 对于小样本、高维度数据表现良好。

二、无监督学习算法

1. 聚类算法（如 K-Means）：

- 将数据划分为不同的簇，使同一簇内的数据点具有较高的相似性，不同簇之间的相似性较低。
- 应用于客户细分、图像分割等领域。
2. 主成分分析（PCA）：

- 用于数据降维。
- 通过线性变换将高维数据投影到低维空间，保留主要的特征信息，去除噪声和冗余。

三、强化学习算法

1. Q-Learning：
- 通过智能体与环境的交互，学习最优的行动策略。
- 根据状态和行动的奖励值来更新 Q 值函数，以选择最优行动。
- 应用于机器人控制、游戏等领域。

数据挖掘常用算法

一、分类算法

1. 决策树：

- 优点：易于理解和解释，可以处理多种类型的数据，对缺失值不敏感。
- 缺点：可能会过拟合，对异常值较为敏感。
- 应用场景：信用评估、疾病诊断等。
2. 随机森林：

- 优点：准确率高，不容易过拟合，能处理高维度数据。
- 缺点：计算成本较高，对于小数据集效果可能不太好。
- 应用场景：图像分类、生物信息学等。
3. 支持向量机（SVM）：

- 优点：在小样本、非线性及高维模式识别中具有独特优势。
- 缺点：计算复杂度较高，对大规模训练样本难以实施。
- 应用场景：文本分类、人脸识别等。

二、聚类算法

1. K-Means 算法：

- 优点：简单快速，适合处理大数据集。
- 缺点：需要预先指定聚类数目 K，对初始聚类中心敏感。
- 应用场景：客户细分、图像分割等。
2. 层次聚类：

- 优点：可以生成层次结构，不需要预先指定聚类数目。
- 缺点：计算复杂度较高，可能会产生不合理的聚类结果。
- 应用场景：生物学、社会学等领域。

三、关联规则挖掘算法

1. Apriori 算法：

- 优点：简单易懂，适用于大规模数据集。
- 缺点：可能会产生大量的候选项集，计算效率较低。
- 应用场景：购物篮分析、推荐系统等。
2. FP-Growth 算法：

- 优点：比 Apriori 算法效率更高，不需要生成大量候选项集。
- 缺点：实现相对复杂，对内存要求较高。
- 应用场景：网络日志分析、故障诊断等。

四、回归算法

1. 线性回归：

- 优点：简单直观，计算速度快。
- 缺点：只能处理线性关系，对异常值敏感。
- 应用场景：房价预测、销售预测等。
2. 多项式回归：

- 优点：可以拟合非线性关系。
- 缺点：容易过拟合，计算复杂度较高。
- 应用场景：气温预测、股票价格预测等。

数据分析常见陷阱

• 错误理解相关关系
– 事物间的相关性并不意味着存在因果关系，或者有可能其因果关系颠倒了
– 需要深入理解业务，规避大部分错误
– 需要分析是否由第三方变量同时引起两种变量的变化，找出其原因
• 错误的比较对象
– 机器学习中的结果或效果进行比较时，容易将不同样本集进行结果比较，比较对象不合
理，其结果自然无效，结论便不能成立
• 数据抽样
– 数据抽样时如果出现偏差可能会影响分析结果
– 需要考虑采

• 忽略或关注极值
– 忽视极值可能失去某类样本或丢失某项重要特征
– 过于关注极值可能会对结果造成偏差，影响结论
• 相信巧合数据
– 实验中多次重复实验可避免巧合数据的出现
• 数据未做归一化
– 两个数据进行比较时，容易进行总数比较，而忽
视比例的比较
• 忽视第三方数据
– 搜集或使用爬虫获得更多数据使数据源更丰富
• 过度关心统计指标
– 可能会忽视某些方法或结论成立的前提条件

机器学习方法的选择

理解目标要求是机器学习方法选择的关键，首先要对问题进行分类，如果数据集中有标签则可进行监督式学习，反之可应用无监督学习熟悉各类机器学习方法的特性是分析方法选择的基础，不仅要了解如何使用各类分析算法，还要了解其实现的原理在选择模型前，要对数据进行探索性分析机器学习方法选择过程中可在几个可能模型中分析选出较优的模型选择模型后，比较不同模型的拟合程度，反复调整参数使模型结果趋于稳定。