成为超级数据科学家的 3 个技巧

        尽管需要大量的技能和知识,但数据科学家的工作是我们这个时代发展最快和最热门的职业道路之一。除了数据工程、机器学习和熊猫等更传统的技能外,这三个技巧将使您成为超级数据科学家。

提示 #1 学习 Python 编程

        虽然这似乎是一个不言而喻的要求m对于数据科学家来说,现实是大多数数据科学家只使用 Python 编写脚本,因此依赖预先构建的库来执行他们的日常任务。这可以处理绝大多数任务,但有时需要自定义代码来解决问题,而 Python 脚本无法提供帮助。例如,我曾经不得不创建一个自定义的 Matrix Factorization 类和另一个类来在这个自定义的 Matrix Factorization 类上执行 GridSearch。这对我来说不是问题,因为在进入数据科学领域之前我是一名软件工程师,但对于没有软件工程背景的人来说可能会非常困难。因此,学习 Python 编程并开发自己的类、函数和模块将使您能够解决任何问题,从而使您脱颖而出。

提示 #2 学习干净的编码

        绝大多数数据科学家很少关注代码。这是正常的,因为在数据科学中,选择合适的数据处理技术和合适的模型来构建和训练比编写代码本身更重要,大多数数据科学家尽可能快地编写代码,唯一的目的是确保它有效。这可能有效,但如果数据科学家回顾他们六个月前编写的代码,当他们发现它不可读和不可用时,他们会后悔的。通过学习简洁的编码,您可以通过重用以前编写的代码来节省大量时间,并使您的代码更具共享性和可读性,以便您团队中的其他人无需解释所有内容即可理解。

提示 #3学习函数式编程

        函数式编程是一种通过组合和应用函数来构建程序的编程范式这种编程范式有助于数据科学,尤其是在执行数据预处理时。众所周知,数据预处理需要几个步骤,包括清理、归一化和处理空值。

        考虑以下场景来演示其效用:
假设我们有一个包含多个 (.csv) 文件的数据集,我们需要读取每个文件并独立处理它。还假设某些文件需要特殊处理,例如输入缺失值。

        如果您使用命令式编码风格,您将不得不编写两个或更多的不可用代码块来处理这个问题,但如果您使用函数式编程,您可以执行以下操作:

        第 1 步:为每一步编写一个函数:

删除极值:f1()
归一化:f2() 输入
缺失值:f3()

        第 2 步:根据需要编写函数:

对于特殊文件:f1(f2(f3()))
对于其他文件:f1(f2())

        这种方法的优点是您的代码是可重用的,允许您在遇到需要类似预处理的数据集时重用这些函数。

        所以,亲爱的读者,如果你遵循本文中的这三个提示,你无疑会从人群中脱颖而出,并将这个可爱的S标志戴在胸前。

         

七爪网7claw.com

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值