你的年收入过5万了吗?数据科学家的Python模块和包

全文共2327字,预计学习时长15分钟

 

图源:unsplash

 

笔者刚开始学习给数据科学编程时,发现要找到创建模块和包的简单解释以及教程非常困难,尤其是数据科学项目方面。

 

数据科学代码通常是非常线性的。一般情况下,要先从数据源提取数据,应用一系列转换,然后执行分析、计算或训练模型。但是为了代码的可读性、高效性和可重复性,将代码模块化并打包很有用。

 

本文将告诉你如何为数据科学和机器学习创建和使用自己的包和模块。笔者将使用成年人数据集,这个数据集通常用来建立分类机器学习模型,目标是预测给定成年人的年收入是否超过5万美元。

 

模块的数据科学用例

 

Python模块仅仅是Python的一组操作,通常是函数形式,保存在扩展名为.py的文件中。可以将该文件导入到Jupyter notebook、IPython shell或其他模块中,以便在项目中使用。

 

尝试运行一个实例。如下代码(从CSV文件中读取)将使用Pandas:


 

import pandas as pddata =pd.read_csv('adults_data.csv')
data.head()

 

 

这个数据集包含许多分类特征。如果打算用它来训练机器学习模型,就需要先执行一些预处理。通过分析这些数据,笔者决定在训练模型之前,采取以下步骤对数据进行预处理。

 

· 将雇主的单位类型、婚姻状况、家庭关系、种族和性别进行独热编码。

 

· 选取最常见的值,将余下的值归为“其他”,并对结果特征进行独热编码。该操作在最高教育水平、工作类型、原籍国中执行,因为它们包含大量特殊的值。

 

· 缩放剩余数值。

 

执行这些任务需要编写大量代码,这些任务都可能被多次执行,为使代码更具可读性并易于重用,可以将一系列函数写入到一个单独的文件中,并导入到 notebook(一个模块)中使用。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值