5个增加数据科学学习的技巧

通过关注这5件事来提高你的学习曲线,而不是参加更多的在线课程。

本文来自Julia Nikulski

许多指南都会给一些建议,说明如何开始数据科学:要上哪些在线课程,为你的投资组合实施哪些项目,以及要获得哪些技能。但是如果开始了学习,有些人却不知道下一步该怎么办?

我想分享我关注的5件事情,这确实帮助我提高了数据科学学习,并建立了更深刻的知识和技能,提高了我的技术和非技术能力,以实施成功的项目并取得成果。如果你还在徘徊期,不妨可以试试。

1.从头到尾参与大项目的执行

大多数人往往会从实践中学到最好的东西,这就是为什么在线课程通常会教一种技能或概念,然后要求在一个小练习或项目中实施。所以在项目上工作会教会你很多,虽然从头到尾实施大型项目,可能会有很多陷阱,这将教会更多知识。

如果你作为在线课程的一部分参与一个项目,那么研究问题、数据集,有时甚至无需选择模型和评估指标,只需要关注代码和实现。然而,决定一个研究问题、数据集、模型和评估指标实际上是棘手的部分!

无论数据分析师、BI分析师还是数据科学家,部分工作都是识别大量数据中的模式,而无需任何人告诉具体要查找什么。在其他情况下,您可能要调查一个特定的问题,但没有数据集,需要考虑可以使用什么来回答这个问题以及如何获取它。

为了练习实现之外的技能,应该从头开始开发自己的项目—从研究问题开始,到部署结束。以下资源可帮助你完成此任务:

1、开发项目想法:如果你需要灵感来提出独特的数据科学项目想法。

2、项目规划方法:本文介绍了10种不同的方法来帮助规划和管理数据科学项目。它们包括CRISP-DM、agile、ad hoc、和waterfall方法。

3、数据科学项目结构:Cookiecutter Data science提供了一个标准化的项目结构,帮助创建可复制的、自文档化的项目。它考虑了项目中的所有步骤——从收集和转换数据到生成包含结果的报告。

除了从开始到完成一个项目的实施,对更大项目的关注也会增加学习经验,同时处理大型数据集、实现更多的模型和回答更多的问题将出现更多的问题和困难。虽然实践可能会令人沮丧,但它实际上教会了宝贵的知识和技能。面对一个问题,然后自己解决,这是一种比被告知潜在问题及其解决方案更有效的学习方式。

2.创建自己的数据集

对于许多数据科学家来说,建模是最令人兴奋的一部分——找出要使用的算法、实现、微调和评估它们,但需要高达80%的时间来处理数据收集和清理。

因此,了解什么样的数据与特定的研究问题相关,在哪里以及如何获取这些数据,以及采取什么样的预处理步骤是至关重要的。您应该练习web抓取,熟悉提供现有数据集和api的源代码(可以对其进行组合和扩展),并转换数据以进行进一步的分析和建模。

尽管许多项目组合需要一次性获取数据,但现实中的应用程序通常需要ETL管道不断地提取、转换和加载新数据。因此,通过编写一个脚本,不断地提取新数据、转换数据并将其保存到数据库中,就可以将数据采集转化为ETL过程。

以下资源可帮助开始创建自己的数据集和ETL管道:

Kaggle上的数据集:Kaggle上的用户共享了他们创建的数百个数据集。其中许多解释了获取数据的来源和过程,并让您知道在哪里可以找到数据。

数据科学的网页抓取:

Kerry Parker为数据科学家写了一本关于网络抓取的指南。

数据科学API:22个API-包括IBM Watson、Spotify和Census.gov-为数据科学和机器学习提供数据。

AwesomeETL:用各种语言(包括Python)构建ETL管道的资源概述。

3.阅读学术论文

当我想获得一个主题的高层次概述或了解算法的基本机制时,我会去找包括关于数据科学和其他网站的博客文章。然而,一个高层次的理解只能让你走这么远。

阅读介绍、比较和对比算法和机器学习方法的学术论文,将提供比任何博客文章都更深刻的知识。例如,了解为什么引入某个特定的算法,它在数学上是如何工作的,有哪些其他研究和模型可以解决类似的问题,以及未来的研究需要解决哪些问题。

此外,阅读学术论文有助于掌握所在领域的最新进展,ML算法和NLP模型都是由研究人员开发的,并在random forests、XGBoost、BERT、GPT-3等论文中介绍。

通过定期阅读学术论文获得的知识,将能够更好地解释算法的内部工作原理,为用例选择合适的模型,并证明自己的决策是正确的。读科学著作可能很难也很累,但这是值得的。

以下资源可以帮助您开始学习学术论文:

1、学术论文阅读指南:

Kyle M Shannon解释了为什么阅读学术著作是如此困难,以及如何才能在这方面做得更好。

2、深度学习论文阅读:

Robert Lange每月出版推荐的深度学习论文新摘要。

3、RSS提要:使用RSS提要来更新最新的研究,arXiv feed允许访问与特定类别相关的研究,如计算机科学、统计学或机器学习。

4.写技术博客

根据 Feynman技术,向别人解释一个话题是自我学习的好方法。当在Medium或TDS上写关于数据科学的技术文章时,需要足够详细地理解材料,以便向读者解释。因此,写数据科学是 Feynman技术的一个很好应用。

写技术文章的一个极好的好处是有自己的资源,如果想重新了解一下刚才实现的算法或项目,可以回到自己的文章中。此外,这些博客文章还可以向雇主证明,你了解某个主题,并且精通数据科学。最后,写作有助于练习你的沟通技巧,这是数据科学家的一项重要技能!

以下资源可帮助你入门并提高写作能力技术:

1、如何开始数据科学写作:

Rashi Desai提供如何撰写数据科学文章的理由和指导。

2、数据科学写作指南:

Elliot Gunn创建了TDS文章的概述,讨论如何改进数据科学写作。

3、发布成功文章的工具和建议:

Anne Bonner分享在媒体上写博客的一般建议,并讨论一些有价值的工具,如语法和 Hemingway App。

5.与他人合作

与其他数据科学家或程序员合作,以及为朋友或当前雇主解决与数据相关的问题,可以教会您在线课程所缺乏的技能:

1、与技术和非技术受众沟通并向他们展示自己的成果。

2、解决与业务相关的问题,其中错误可能会产生实际影响、。

3、根据用户反馈调整自己的想法和代码。

要开始与他人合作,请与可能面临数据和编码技能可以解决的问题的朋友交谈。如果你认识数据科学家或程序员,与他们在一个联合项目上合作。在工作中要注意发现可以利用数据科学技能的潜在机会。也有许多机会与在线社区合作,例如DataKind、Data for Good或Statistics Without Borders。

总结

学习数据科学很难——不仅仅是因为你需要掌握所有的技术知识。规划你的学习之旅,坚持下去,让你的努力得到回报的感觉是很有挑战性的。我曾经认为网络课程是成为伟大数据科学家的秘诀。

我发现从头到尾从事大型项目、创建自己的数据集和ETL管道、阅读研究论文、撰写技术博客文章以及与他人合作,教会了我宝贵的技能,否则我将无法获得这些技能。我希望你能自己尝试一下这些技巧,提高你的数据科学学习。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值