你的年收入过5万了吗？数据科学家的Python模块和包

最新推荐文章于 2024-02-29 16:31:40 发布

「已注销」

最新推荐文章于 2024-02-29 16:31:40 发布

阅读量725

点赞数

分类专栏：热点文章 AI 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/106314310

版权

本文介绍了如何为数据科学和机器学习项目创建和使用Python模块和包。通过预处理成年人收入数据集，展示了如何组织代码以提高可读性和可重用性。文章详细阐述了模块的创建，包括数据预处理函数的编写，以及如何构建和使用包来整合相关模块。

摘要由CSDN通过智能技术生成

全文共2327字，预计学习时长15分钟

图源：unsplash

笔者刚开始学习给数据科学编程时，发现要找到创建模块和包的简单解释以及教程非常困难，尤其是数据科学项目方面。

数据科学代码通常是非常线性的。一般情况下，要先从数据源提取数据，应用一系列转换，然后执行分析、计算或训练模型。但是为了代码的可读性、高效性和可重复性，将代码模块化并打包很有用。

本文将告诉你如何为数据科学和机器学习创建和使用自己的包和模块。笔者将使用成年人数据集，这个数据集通常用来建立分类机器学习模型，目标是预测给定成年人的年收入是否超过5万美元。

模块的数据科学用例

Python模块仅仅是Python的一组操作，通常是函数形式，保存在扩展名为.py的文件中。可以将该文件导入到Jupyter notebook、IPython shell或其他模块中，以便在项目中使用。

尝试运行一个实例。如下代码（从CSV文件中读取）将使用Pandas：

import pandas as pddata =pd.read_csv('adults_data.csv')
data.head()

这个数据集包含许多分类特征。如果打算用它来训练机器学习模型，就需要先执行一些预处理。通过分析这些数据，笔者决定在训练模型之前，采取以下步骤对数据进行预处理。

· 将雇主的单位类型、婚姻状况、家庭关系、种族和性别进行独热编码。

· 选取最常见的值，将余下的值归为“其他”，并对结果特征进行独热编码。该操作在最高教育水平、工作类型、原籍国中执行，因为它们包含大量特殊的值。

· 缩放剩余数值。

执行这些任务需要编写大量代码，这些任务都可能被多次执行，为使代码更具可读性并易于重用，可以将一系列函数写入到一个单独的文件中，并导入到 notebook（一个模块）中使用。

图源：unsplash

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2070: 原创

-: 周排名

-: 总排名

343万+: 访问

: 等级

4万+: 积分

4917: 粉丝

4457: 获赞

1312: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

热点文章 552篇
AI 1079篇
热点文章 559篇
干货文章 39篇
热门文章 1篇
学术报告 11篇
干货文章 69篇
学术报告

最新评论

快换浏览器吧！Google Chrome是最烂的浏览器
小没苯agoe: 赞同！！！edge比chrome快22%，firefox比chrome快16%!
提前返回有好处吗？
温庭筠: 我不使用提前返回, 因为接手别人的代码时确实比较难理解一旦代码达到了维护阶段，新手程序员试图推理逻辑时，多次返回就会大大影响他们的效率（当注释比较分散，代码模糊不清时尤其糟糕）
在Windows系统和Linux系统中，如何打造一个好终端？
全栈小5: 文章结构严谨，每次阅读都能收获知识，感谢博主的分享，期待博主继续更新高质量文章，支持！【如何让windows终端和linux一样好用，博主这篇文章，值得一看】
NLP入门第一步：6种独特的数据标记方式
麦甜守望者: 有中文怎么标注的吗？
海量案例！生成对抗网络（GAN）的18个绝妙应用
PreWisdom: 18 Impressive Applications of Generative Adversarial Networks (GANs) by Jason Brownlee on July 12, 2019 in Generative Adversarial Networks https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/ 你知道我要说什么吧，你这完全是把别人的文章简单翻译了一下搬过来了，然后你发原创，真行啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。