5个增加数据科学学习的技巧

最新推荐文章于 2023-06-03 11:21:35 发布

人工智能数据服务商

最新推荐文章于 2023-06-03 11:21:35 发布

阅读量129

点赞数

文章标签：算法大数据机器学习人工智能深度学习

本文链接：https://blog.csdn.net/SurfingTech/article/details/117785994

版权

通过关注这5件事来提高你的学习曲线，而不是参加更多的在线课程。

本文来自Julia Nikulski

许多指南都会给一些建议，说明如何开始数据科学：要上哪些在线课程，为你的投资组合实施哪些项目，以及要获得哪些技能。但是如果开始了学习，有些人却不知道下一步该怎么办？

我想分享我关注的5件事情，这确实帮助我提高了数据科学学习，并建立了更深刻的知识和技能，提高了我的技术和非技术能力，以实施成功的项目并取得成果。如果你还在徘徊期，不妨可以试试。

1.从头到尾参与大项目的执行

大多数人往往会从实践中学到最好的东西，这就是为什么在线课程通常会教一种技能或概念，然后要求在一个小练习或项目中实施。所以在项目上工作会教会你很多，虽然从头到尾实施大型项目，可能会有很多陷阱，这将教会更多知识。

如果你作为在线课程的一部分参与一个项目，那么研究问题、数据集，有时甚至无需选择模型和评估指标，只需要关注代码和实现。然而，决定一个研究问题、数据集、模型和评估指标实际上是棘手的部分！

无论数据分析师、BI分析师还是数据科学家，部分工作都是识别大量数据中的模式，而无需任何人告诉具体要查找什么。在其他情况下，您可能要调查一个特定的问题，但没有数据集，需要考虑可以使用什么来回答这个问题以及如何获取它。

为了练习实现之外的技能，应该从头开始开发自己的项目—从研究问题开始，到部署结束。以下资源可帮助你完成此任务：

1、开发项目想法：如果你需要灵感来提出独特的数据科学项目想法。

2、项目规划方法：本文介绍了10种不同的方法来帮助规划和管理数据科学项目。它们包括CRISP-DM、agile、ad hoc、和waterfall方法。

3、数据科学项目结构：Cookiecutter Data science提供了一个标准化的项目结构，帮助创建可复制的、自文档化的项目。它考虑了项目中的所有步骤——从收集和转换数据到生成包含结果的报告。

除了从开始到完成一个项目的实施，对更大项目的关注也会增加学习经验，同时处理大型数据集、实现更多的模型和回答更多的问题将出现更多的问题和困难。虽然实践可能会令人沮丧，但它实际上教会了宝贵的知识和技能。面对一个问题，然后自己解决，这是一种比被告知潜在问题及其解决方案更有效的学习方式。

2.创建自己的数据集

对于许多数据科学家来说，建模是最令人兴奋的一部分——找出要使用的算法、实现、微调和评估它们，但需要高达80%的时间来处理数据收集和清理。

因此，了解什么样的数据与特定的研究问题相关，在哪里以及如何获取这些数据，以及采取什么样的预处理步骤是至关重要的。您应该练习web抓取，熟悉提供现有数据集和api的源代码（可以对其进行组合和扩展），并转换数据以进行进一步的分析和建模。

尽管许多项目组合需要一次性获取数据，但现实中的应用程序通常需要ETL管道不断地提取、转换和加载新数据。因此，通过编写一个脚本，不断地提取新数据、转换数据并将其保存到数据库中，就可以将数据采集转化为ETL过程。

以下资源可帮助开始创建自己的数据集和ETL管道：

Kaggle上的数据集：Kaggle上的用户共享了他们创建的数百个数据集。其中许多解释了获取数据的来源和过程，并让您知道在哪里可以找到数据。

数据科学的网页抓取：

Kerry Parker为数据科学家写了一本关于网络抓取的指南。

数据科学API：22个API-包括IBM Watson、Spotify和Census.gov-为数据科学和机器学习提供数据。

AwesomeETL：用各种语言（包括Python）构建ETL管道的资源概述。

3.阅读学术论文

当我想获得一个主题的高层次概述或了解算法的基本机制时，我会去找包括关于数据科学和其他网站的博客文章。然而，一个高层次的理解只能让你走这么远。

阅读介绍、比较和对比算法和机器学习方法的学术论文，将提供比任何博客文章都更深刻的知识。例如，了解为什么引入某个特定的算法，它在数学上是如何工作的，有哪些其他研究和模型可以解决类似的问题，以及未来的研究需要解决哪些问题。

此外，阅读学术论文有助于掌握所在领域的最新进展，ML算法和NLP模型都是由研究人员开发的，并在random forests、XGBoost、BERT、GPT-3等论文中介绍。

通过定期阅读学术论文获得的知识，将能够更好地解释算法的内部工作原理，为用例选择合适的模型，并证明自己的决策是正确的。读科学著作可能很难也很累，但这是值得的。

以下资源可以帮助您开始学习学术论文：

1、学术论文阅读指南：

Kyle M Shannon解释了为什么阅读学术著作是如此困难，以及如何才能在这方面做得更好。

2、深度学习论文阅读：

Robert Lange每月出版推荐的深度学习论文新摘要。

3、RSS提要：使用RSS提要来更新最新的研究，arXiv feed允许访问与特定类别相关的研究，如计算机科学、统计学或机器学习。

4.写技术博客

根据 Feynman技术，向别人解释一个话题是自我学习的好方法。当在Medium或TDS上写关于数据科学的技术文章时，需要足够详细地理解材料，以便向读者解释。因此，写数据科学是 Feynman技术的一个很好应用。

写技术文章的一个极好的好处是有自己的资源，如果想重新了解一下刚才实现的算法或项目，可以回到自己的文章中。此外，这些博客文章还可以向雇主证明，你了解某个主题，并且精通数据科学。最后，写作有助于练习你的沟通技巧，这是数据科学家的一项重要技能！

以下资源可帮助你入门并提高写作能力技术：

1、如何开始数据科学写作：

Rashi Desai提供如何撰写数据科学文章的理由和指导。

2、数据科学写作指南：

Elliot Gunn创建了TDS文章的概述，讨论如何改进数据科学写作。

3、发布成功文章的工具和建议：

Anne Bonner分享在媒体上写博客的一般建议，并讨论一些有价值的工具，如语法和 Hemingway App。

5.与他人合作

与其他数据科学家或程序员合作，以及为朋友或当前雇主解决与数据相关的问题，可以教会您在线课程所缺乏的技能：

1、与技术和非技术受众沟通并向他们展示自己的成果。

2、解决与业务相关的问题，其中错误可能会产生实际影响、。

3、根据用户反馈调整自己的想法和代码。

要开始与他人合作，请与可能面临数据和编码技能可以解决的问题的朋友交谈。如果你认识数据科学家或程序员，与他们在一个联合项目上合作。在工作中要注意发现可以利用数据科学技能的潜在机会。也有许多机会与在线社区合作，例如DataKind、Data for Good或Statistics Without Borders。

总结

学习数据科学很难——不仅仅是因为你需要掌握所有的技术知识。规划你的学习之旅，坚持下去，让你的努力得到回报的感觉是很有挑战性的。我曾经认为网络课程是成为伟大数据科学家的秘诀。

我发现从头到尾从事大型项目、创建自己的数据集和ETL管道、阅读研究论文、撰写技术博客文章以及与他人合作，教会了我宝贵的技能，否则我将无法获得这些技能。我希望你能自己尝试一下这些技巧，提高你的数据科学学习。

人工智能数据服务商

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5个增加数据科学学习的技巧

通过关注这5件事来提高你的学习曲线，而不是参加更多的在线课程。本文来自Julia Nikulski许多指南都会给一些建议，说明如何开始数据科学：要上哪些在线课程，为你的投资组合实施哪些项目，以及要获得哪些技能。但是如果开始了学习，有些人却不知道下一步该怎么办？我想分享我关注的5件事情，这确实帮助我提高了数据科学学习，并建立了更深刻的知识和技能，提高了我的技术和非技术能力，以实施成功的项目并取得成果。如果你还在徘徊期，不妨可以试试。1.从头到尾参与大项目的执行大多数人往往会从实践中学到最好
复制链接

扫一扫