掌握这六步，搭建完美的机器学习项目

最新推荐文章于 2024-04-30 17:52:46 发布

「已注销」

最新推荐文章于 2024-04-30 17:52:46 发布

阅读量699

点赞数 3

分类专栏：热点文章 AI 文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/102972093

版权

本文介绍了如何搭建机器学习项目的六个步骤：问题定义、数据类型与关联、模型评估、变量选择、建模和实验。重点阐述了如何将商业问题转化为机器学习问题，以及在数据收集、建模和模型应用中应注意的要点。通过实例解析了不同机器学习技术的适用场景，并提供了评估模型性能的方法。

摘要由CSDN通过智能技术生成

全文共7778字，预计学习时长15分钟

上图白板展示了一系列机器学习项目启动

机器学习覆盖的范围十分广泛。这篇文章将整体描述机器学习适用的典型问题，提供实现机器学习项目雏形的框架。

首先厘清一些定义。

机器学习、人工智能和数据科学区别何在？

这三个主题没有明确的定义，因而有些难以理解。为防止误解，我们将问题简化。读者可以认为本文提到的机器学习就是发现数据中的规律，以理解某些问题或者预测未来事件。

希望读者在阅读以下步骤时能边学边做，检验结果。在实践中学习。

一条机器学习管道可以被分解成三个主要步骤：数据收集、数据建模和模型运用。这三个步骤相互影响、环环相扣。

启动项目时，你可能走入如下循环：收集数据，对其建模，发现收集到的数据质量较差，重新收集数据，建模，运用这一模型，发现它并不管用，重新建模，运用，发现新模型仍然没用，再次收集数据……

等等，模型是什么？运用又是什么？如何收集数据？

好问题。

收集数据的方式取决于问题。下文将展示一些例子，读者也可以看看电子表中的顾客购买记录。

建模就是运用机器学习算法从收集到的数据中寻找知识。

普通算法和机器学习算法的区别是什么？

普通的算法就像菜谱，是把原料转换为美味菜肴的一系列指令。

机器学习的特殊之处在于，原始条件是材料和菜肴，而非指令。机器学习算法研究原料和菜肴，给出转换所需的指令。

机器学习算法多种多样，不同算法解决不同问题的性能不同，但是它们的目标一致，即寻找数据中的模式或者指令集。

运用就是实际应用找到的指令集。运用的形式多种多样，既可以是在网络商店中向顾客推荐商品，也可以是为医疗机构寻找更好的疾病检测方案。

不同项目中每个步骤的具体细节不尽相同，但是原理基本相似。

本文重点讲解数据建模。假设读者已经收集到了数据，正准备用它构建一个机器学习模型。这个过程可以分为以下几步：

机器学习项目可以分为三步，数据收集，建模和模型运用。本文主要关注建模阶段，并假设读者已经拥有数据。

1. 问题定义——要解决的商业问题是什么？如何把它转化为机器学习问题？

2. 数据——既然机器学习是在数据中洞察规律，那么数据是什么类型的？它如何与问题产生关联？数据是结构性的还是无结构的？静态的还是动态的？

3. 模型评估——怎么样才算成功？准确率95%的机器学习模型够好吗？

4. 变量——需要使用哪一部分数据？已知信息如何影响数据使用？

5. 建模——选择哪个模型？如何改进？如何比较不同模型的性能？

6. 实验——还可以做什么尝试？模型的表现符合预期吗？已知信息如何影响其他步骤？

下面深入讨论上述问题。

1. 问题定义——把商业问题改写成机器学习问题

判断能否运用机器学习，第一步是把待解决的商业问题转化为机器学习问题。

有监督学习、无监督学习、迁移学习和强化学习是四种主要的机器学习技术（此处为了行文简单，省略了半监督学习）。其中监督学习、无监督学习和迁移学习最常应用于商业项目。

有监督学习

已知数据和类标的机器学习称为监督学习。机器学习算法旨在研究影响类标的因素。监督发生在训练阶段。如果算法猜错了类标，它会尝试自我修正。

比如，如果试图检测某人是否患有心脏病，可以把100份匿名病历作为数据，是否患有心脏病作为类标。

机器学习算法可以研究病历（输入）以及病人是否患有心脏病（输出），然后判断病历中的哪些指标导致心脏病。

训练好算法之后，就可以把新病历（输入）传给算法，算法将预测患者是否

最低0.47元/天解锁文章

「已注销」

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
掌握这六步，搭建完美的机器学习项目

全文共7778字，预计学习时长15分钟上图白板展示了一系列机器学习项目启动机器学习覆盖的范围十分广泛。这篇文章将整体描述机器学习适用的典型问题，提供实现机器学习项目雏形的框架。首先厘清一些定义。机器学习、人工智能和数据科学区别何在？这三个主题没有明确的定义，因而有些难以理解。为防止误解，我们将问题简化。读者可以认为本文提到的机器学习就是发现数据中的规律，以理解某些问题或...
复制链接

扫一扫

专栏目录

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2070: 原创

-: 周排名

-: 总排名

341万+: 访问

: 等级

4万+: 积分

4917: 粉丝

4456: 获赞

1312: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

热点文章 552篇
AI 1079篇
热点文章 559篇
干货文章 39篇
热门文章 1篇
学术报告 11篇
干货文章 69篇
学术报告

最新评论

快换浏览器吧！Google Chrome是最烂的浏览器
小没苯agoe: 赞同！！！edge比chrome快22%，firefox比chrome快16%!
提前返回有好处吗？
温庭筠: 我不使用提前返回, 因为接手别人的代码时确实比较难理解一旦代码达到了维护阶段，新手程序员试图推理逻辑时，多次返回就会大大影响他们的效率（当注释比较分散，代码模糊不清时尤其糟糕）
在Windows系统和Linux系统中，如何打造一个好终端？
全栈小5: 文章结构严谨，每次阅读都能收获知识，感谢博主的分享，期待博主继续更新高质量文章，支持！【如何让windows终端和linux一样好用，博主这篇文章，值得一看】
NLP入门第一步：6种独特的数据标记方式
麦甜守望者: 有中文怎么标注的吗？
海量案例！生成对抗网络（GAN）的18个绝妙应用
PreWisdom: 18 Impressive Applications of Generative Adversarial Networks (GANs) by Jason Brownlee on July 12, 2019 in Generative Adversarial Networks https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/ 你知道我要说什么吧，你这完全是把别人的文章简单翻译了一下搬过来了，然后你发原创，真行啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。