成为超级数据科学家的 3 个技巧

最新推荐文章于 2024-10-05 17:39:48 发布

mn422533

最新推荐文章于 2024-10-05 17:39:48 发布

阅读量108

点赞数

文章标签：线性代数 javascript 开发语言前端

原文链接：https://medium.com/@wadie_skaf/3-tips-to-become-a-super-data-scientist-3d54406d749d

版权

尽管需要大量的技能和知识，但数据科学家的工作是我们这个时代发展最快和最热门的职业道路之一。除了数据工程、机器学习和熊猫等更传统的技能外，这三个技巧将使您成为超级数据科学家。

提示 #1 学习 Python 编程

虽然这似乎是一个不言而喻的要求m对于数据科学家来说，现实是大多数数据科学家只使用 Python 编写脚本，因此依赖预先构建的库来执行他们的日常任务。这可以处理绝大多数任务，但有时需要自定义代码来解决问题，而 Python 脚本无法提供帮助。例如，我曾经不得不创建一个自定义的 Matrix Factorization 类和另一个类来在这个自定义的 Matrix Factorization 类上执行 GridSearch。这对我来说不是问题，因为在进入数据科学领域之前我是一名软件工程师，但对于没有软件工程背景的人来说可能会非常困难。因此，学习 Python 编程并开发自己的类、函数和模块将使您能够解决任何问题，从而使您脱颖而出。

提示 #2 学习干净的编码

绝大多数数据科学家很少关注代码。这是正常的，因为在数据科学中，选择合适的数据处理技术和合适的模型来构建和训练比编写代码本身更重要，大多数数据科学家尽可能快地编写代码，唯一的目的是确保它有效。这可能有效，但如果数据科学家回顾他们六个月前编写的代码，当他们发现它不可读和不可用时，他们会后悔的。通过学习简洁的编码，您可以通过重用以前编写的代码来节省大量时间，并使您的代码更具共享性和可读性，以便您团队中的其他人无需解释所有内容即可理解。

提示 #3学习函数式编程

函数式编程是一种通过组合和应用函数来构建程序的编程范式。这种编程范式有助于数据科学，尤其是在执行数据预处理时。众所周知，数据预处理需要几个步骤，包括清理、归一化和处理空值。

考虑以下场景来演示其效用：
假设我们有一个包含多个 (.csv) 文件的数据集，我们需要读取每个文件并独立处理它。还假设某些文件需要特殊处理，例如输入缺失值。

如果您使用命令式编码风格，您将不得不编写两个或更多的不可用代码块来处理这个问题，但如果您使用函数式编程，您可以执行以下操作：

第 1 步：为每一步编写一个函数：

删除极值：f1()
归一化：f2() 输入
缺失值：f3()

第 2 步：根据需要编写函数：

对于特殊文件：f1(f2(f3()))
对于其他文件：f1(f2())

这种方法的优点是您的代码是可重用的，允许您在遇到需要类似预处理的数据集时重用这些函数。

所以，亲爱的读者，如果你遵循本文中的这三个提示，你无疑会从人群中脱颖而出，并将这个可爱的S标志戴在胸前。

七爪网7claw.com

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。