【机器学习】041_模型开发迭代过程

最新推荐文章于 2024-07-12 15:56:49 发布

Cyan.__

最新推荐文章于 2024-07-12 15:56:49 发布

阅读量184

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能 python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yukiice/article/details/134913487

版权

机器学习专栏收录该内容

45 篇文章 1 订阅

订阅专栏

一、模型开发的一般步骤

1. 明确研究问题

确定问题的组成和结果，明晰问题是分类问题还是回归问题

2. 决定系统总体架构

①理解数据：采集（爬取）数据，生成（导入）数据，进行数据清洗操作，包括数据预处理：缺失值处理、重复值处理、转换数据类型、规整字符串、进行数据归一化/标准化等。

②特征工程：对所采集的数据根据问题分析所采取的特征、确定所需的特征值，计算各个特征和标签的相关性，查看标签对应的相关系数，并根据相关系数的大小选择特征列作为模型输入。

③建立数据集：选取训练数据和测试数据的特征和标签，划分好训练数据集与测试数据集。

④构建神经网络：根据问题和输入设计好神经网络架构。

⑤选择算法：选择合适的机器学习算法，导入算法或自写算法。

⑥选择超参数：选择、初始化好计算过程里相应的超参数。

⑦训练模型：构建好模型，开始训练。

3. 模型评估

①对模型的预测结果进行相应的精度评估。

②对模型的精度、误差等进行相应的优化，采取对应的优化方案，例如扩大神经网络、进行正则化等等，不断循环进行，使模型的精度更高，预测结果更好。

文本分类实例：

· 构建分类器来识别垃圾邮件和非垃圾邮件

思路：

· 训练一个监督学习算法，输入特征x为电子邮件的相关特征，输出标签y为1或0，表示电子邮件是否是垃圾邮件。

· 取英语或其它词典中排名前10,000的单词（字词），并使用它们来定义特征x_1,x_2...x_10,000。

例如，对于右边的电子邮件，取单词表设置各单词的特征为0或1或其出现的具体次数。

给定这个单词表各单词出现频率或次数的特征值，可以训练分类算法在给定x的情况下预测y值。

· 获取数据方式例子：创建大量虚假电子邮件地址，故意交到垃圾邮件发送者手中，以期获得大量垃圾邮件数据。或者基于电子邮件路由开发更复杂的数据获取方式。

· 在检测特征值、提取特征单词表的过程中，从电子邮件正文里可提出更复杂的功能。

不同的检测算法、不同的特征值提取方式、不同的数据获取方式都可能导致最终结果和模型效果的不同。

二、开发过程中的模型诊断

错误分析：

假设有500条交叉验证实例，模型算法错误分类了500个实例的100个；

※需手动查看这100个错误实例，并深入了解算法出错的地方及可能原因。

· 从交叉验证集中找到一组算法错误分类的实例，并尝试把它们分组为共同的主题、共同的属性或共同的特征——找清楚导致分类错误所可能的原因。

· 例如，很多被错误分类的垃圾邮件是药品销售类别，那么实际上通过这些示例并手动计算此分类中有多少垃圾邮件是药品垃圾邮件，并估计药品垃圾邮件分类错误的原因；如果分类错误可能是由于拼写错误，那么也会检查计算错误分类的示例有多少个是拼写错误引起的。

· 如果错误分类的数据不仅仅有100个而是更大（例如10,000个），那么通常会抽取大约一定数目的子集，在这些子集上进行查看以确定错误分类数据的情况。

· 如果经过此分析，发现很多错误集中于某一类的示例，那么可能下一步的工作就是收集更多该类型的示例训练数据，或者润色与该类相关的特征值、添加新功能，或者修改优化对该类数据的分析算法。

通过学习曲线反映的偏差方差分析能够反映出模型的一些错误，以提供一些“开发更大神经网络”或“收集更多数据”的工作线索。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【机器学习】041_模型开发迭代过程

【学习笔记】机器学习_041：梳理模型开发迭代过程，对模型开发工程中的基本流程进行分析，并针对模型诊断、错误分析提供了一些注意点。
复制链接

扫一扫

专栏目录

Cyan.__ CSDN认证博客专家 CSDN认证企业博客

码龄2年

47: 原创

41万+: 周排名

8万+: 总排名

9194: 访问

: 等级

506: 积分

23: 粉丝

34: 获赞

15: 评论

38: 收藏

私信

关注

热门文章

分类专栏

Linux 1篇
机器学习 45篇
C++ 1篇

最新评论

【机器学习】044_Kaggle房价预测（机器学习模型实战）
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【机器学习】040_理解偏差与方差
白话机器学习: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
【机器学习】041_模型开发迭代过程
白话机器学习: 内容丰富图文并茂，认真看完收获很大。思路清晰细节满满，支持大佬优质好文。
【机器学习】019_缺失值处理
CSDN-Ada助手: 恭喜你写完了第20篇博客！标题看起来非常有意思，关于缺失值处理的内容一定会对读者有所帮助。你在机器学习领域的持续创作让人佩服，真的很高兴看到你的进步。在下一步的创作中，或许可以考虑分享一些关于特征选择或者模型评估的技巧，这些主题也是非常受欢迎的。再次恭喜你，并期待你未来更多博客的发布！
【机器学习】001_监督学习与非监督学习
CSDN-Ada助手: 非常恭喜你开始了博客创作的旅程！标题看起来非常有吸引力，机器学习的内容一直备受关注。监督学习与非监督学习是机器学习中的两个重要概念，期待你能够深入探讨这两个主题，给读者带来更多的见解和启发。在下一步的创作中，或许可以考虑介绍一些具体的监督学习和非监督学习的算法或示例，这样读者能够更好地理解它们的应用和区别。再次祝贺你的第一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。