python数据建模实战_Python数据实战之数据探索与模型预测

30adcbef76094b36d8f0a4f3a7df0fdd8d109d61.jpeg?token=17a4483a7ba6ed2b9d3a599c9a32a71b&s=BFA872234F3EF8CC0E7589D3010080B0

数据探索及可视化

探索数据本质上是指从图形或统计数字中搜寻数据,以发现数据中的模式、联系和关系。数据可视化是突出显示可能的模式的最佳工具。

近年来,数据可视化发展迅猛,已成为一门真正的学科。事实上,专门用来呈现数据的技术有很多。从数据集中抽取最佳信息的可视化技术也不少。

数据探索包括初步检验数据,这对于理解采集到的数据的类型和含义很重要。再结合问题定义阶段所获得的信息,确定数据类型,这决定着选用哪种数据分析方法定义模型最为合适。一般来讲,在这个阶段,除了细致研究用数据可视化方法得到的图表外,可能还包括以下一种或多种活动:1.总结数据;2.为数据分组;3.探索不同属性之间的关系;4.识别模式和趋势;5.建立回归模型;6.建立分类模型。

通常来讲,数据分析需要总结与研究数据相关的各种表述。总结过程,在不损失重要信息的情况下,将数据浓缩为对系统的解释。聚类这种数据分析方法用来找出由共同的属性所组成的组。数据分析的另外一个重要步骤关注的是识别数据中的关系、趋势和异常现象。为了找到这些信息,需要使用合适的工具,同时还要分析可视化后得到的图像。

其他数据挖掘方法,比如决策树和关联规则挖掘,则是自动从数据中抽取重要的事实或规则。这些方法可以和数据可视化配合使用,以便发现数据之间存在的各种关系。

预测模型

数据分析的预测模型阶段,则要创建或选择合适的统计模型来预测某一个结果的概率。探索完数据后,你就掌握了用来开发数学模型,为数据中所存在的关系编码的全部信息。这些模型有助于我们理解作为研究对象的系统。具体来说,模型主要有以下两个方面的用途:一是预测系统所产生的数据的值,使用回归模型;二是为新数据分类,使用分类模型或聚类模型。事实上,根据输出结果的类型,模型可分为以下三种:1.分类模型:模型输出结果为类别型;2.回归模型:模型输出结果为数值型;3.聚类模型:模型输出结果为描述类型。

生成这些模型的简单方法包括线性回归、逻辑回归、分类、回归树和K-近邻算法。但是分析方法有多种,且每一种都有自己的特点,擅长处理和分析特定类型的数据。每一种方法都能生成一种特定的模型,选取哪种方法跟模型的自身特点有关。

有些模型输出的预测值和系统实际表现一致,这些模型的结构使得它们能够以一种简洁清晰的方法解释我们所研究的系统的某些特点,另外一些模型也能给出正确的预测值,但是它们的结构为“黑箱”,对系统特点的解释能力有限。

模型评估

模型评估阶段也就是测试阶段,对数据分析很重要。在该阶段,我们会验证用先前采集的数据创建的模型是否有效。该阶段之所以重要,是因为直接与真实系统数据比较,可评估模型所生成的数据的有效性。但其实该阶段我们是从整个数据分析过程所使用的初始数据集中取一部分用于验证。

一般来说,用于建模的数据称为训练集。用来验证模型的数据称为验证集。通过比较模型和实际系统的输出结果,就能评估错误率。使用不同的测试集,就可以得出模型的有效性区间。事实上,预测结果只在一定范围内才有效,或因预测值取值范围而异,预测值和有效性之间存在不同层级的对应关系。

模型评估过程,不仅可以得到模型的确切有效程度(其形式为数字),还可以比较它跟其他模型有什么不同。模型评估技巧有不少,其中最著名的是交叉检验。它的基础操作是把训练集分成不同部分,每一部分轮流作为验证集,同时其余部分用作训练集。通过这种迭代的方式,可以得到最佳模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值