用python做预测模型_用Python建立预测模型的方法

本文探讨了使用Python构建预测模型的过程,强调了初期阶段如假设生成、数据探索的重要性。数据描述性分析占用了建模工作量的50%,数据预处理占40%,而实际建模仅占4%。建议在早期投入高质量时间以创建更强大的模型,减少后期迭代的工作量。关键步骤包括数据探索、预处理、建模和性能评估。
摘要由CSDN通过智能技术生成

Python

建立预测模型的方法

由于近几年来,

Python

用户数量上涨及其本身的简洁性,使得这个工具包对数

据科

学世界的

Python

专家们变得有意义。

本文将帮助你更快更好地建立第一个

预测模型。

绝大多数优秀的数据科学家和

kagglers

建立自己的第一个有效模型

并快速提交。这

不仅仅有助于他们领先于排行榜,而且提供了问题的基准解决方

案。

预测模型的分解过程

我总是集中于投入有质量的时间在建模的初始阶段,

比如,假设生成、头脑风暴、

论或理解可能的结果范围。所有这些活动都有助于我解决问题,

并最终让我设

计出

更强大的商业解决方案。为什么你要在前面花费这段时间,这有充分的理由:

1.

你有足够的时间投入并且你是无经验的(这是有影响的)

2•你不带有其它数据观点或想法的偏见(我总是建议,在深入研究数据之前

做假

设生成)

3.

在后面的阶段,你会急于完成该项目而没有能力投入有质量的时间了。

这个阶段需要投入高质量时间,因此我没有提及时间表,不过我建议你把它作为

标准

的做法。这有助于你建立建立更好地预测模型,

在后面的阶段的只需较少的

迭代工

作。让我们来看看建立第一个模型的剩余阶段的时间表:

1.

数据描述性分析一一

50%

的时间

2.

数据预处理(缺失值和异常值修复)一一

40%

的时间

3.

数据建模一一

4%

的时间

4. --------------------

性能预测

6%

的时间

让我们一步一步完成每个过程(每一步投入预测的时间):

阶段

1 :

描述性分析

/

数据探索

在我刚开始成为数据科学家的时候,

数据探索占据了我大量的时间。

不过,随着

间的推移,我已经把大量的数据操作自动化了。由于数据准备占据建立第一个

模型工

作量的

50%

,自动化的好处是显而易见的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值