《动手学数据分析》开源教程完整发布!

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

 Datawhale干货 

作者:陈安东,湖南大学,Datawhale成员

1. 开源初衷

对于任何一个将来要实际运用的技能,通过实战,自己亲自将一行行代码敲出来,然后达到自己想要的效果,这个过程是最好的学习方式。

最开始接触了Datawhale数据分析项目,那时我作为一名学员的以《Python for data analysis》这本书为教材,通过刷这本教材的代码来学习数据分析的数据处理技能,书里对于pandas和numpy操作讲的很细,但是对于数据分析思维的内容涉及就少了很多。最后感觉就是敲了一堆代码并不知道怎么用。

后面又接触了Datawhale数据挖掘实战项目[1] 。这个项目又比较偏模型和实战,直接给你一个任务,让你去完成,上手难度比较大,但是它的实战性可以让你对于什么是数据挖掘,以及数据挖掘的逻辑有很好的把握。

所以我们在想有没有这样一个项目,以实战为主线,将知识点孕育其中,通过边学,边做以及边被引导的方式来使学习效果达到更好,学完之后既能掌握数据处理技能又能掌握数据分析的大致思路和流程。于是就有了开源项目《动手学数据分析》,让小白也可以更好地开启他的数据分析之路。

2. 项目详情

2.1 项目概括

项目分为三个单元,大致可以分为:数据基础操作,数据清洗与重构,建模和评估。每个部分的学习内容如下:

  • 第一单元:我们获得一个要分析的数据,我要学会如何加载数据,查看数据,然后学习Pandas的一些基础操作,最后开始尝试探索性的数据分析。

  • 第二单元:当我们可以比较熟练的操作数据并认识这个数据之后,我们需要开始数据清洗以及重构,将原始数据变为一个可用好用的数据,为之后放入模型做准备。

  • 第三单元:我们根据任务需求不同,要考虑建立什么模型,我们使用流行的sklearn库,建立模型。对于一个模型的好坏,我们是需要评估的,之后我们会评估我们的模型,对模型做优化。

2.2 项目详情

  • 开源地址:

    https://github.com/datawhalechina/hands-on-data-analysis

  • 代码形式:jupyter

  • 数据集:kaggle上的泰坦尼克[2]数据集

  • 目的:是通过真实的数据,以实战的方式熟悉数据分析python的基本操作和了解数据分析思维

  • 结果:完成Kaggle上泰坦尼克任务

在从GitHub下载了我们的仓库之后,里面包含了我们所需的数据以及实战需要的代码。在每个单元里,分别有【课程】文件和【答案】文件。

【课程】是实战文件,根据我们的引导,通过代码完成相应的任务。除了需要完成了代码的编写,在重要的地方我们设计了思考题,学习者可以有更深刻的理解。

在完成一个【课程】后,既掌握了这一部分知识又可以完成代码的编写。

在相对应的【答案】文件,我们提供了参考答案。也是希望新手可以在实战的路上少一点坑,多一点注意力放到知识点本身。

3. 写到最后

关于我们项目的名字——动手学数据分析(Hands-on data analysis)。数据分析是一个要从一堆数字中看到真相的过程。学会操作数据只是数据分析的一半功力,剩下的另一半要用我们的大脑,多思考,多总结,更要多动手,实打实的的敲代码。所以也希望在学习这个开源教程的时候,多去推理,多去问问为什么;多多练习,确保理论实践结合起来,在学习结束的时候一定会大有收获。

参考资料

[1]

数据挖掘实战: https://github.com/datawhalechina/team-learning-data-mining

[2]

泰坦尼克数据集: 后台回复titanic获取

后台回复 动手学数据分析 ,可下载 PDF教程

“干货学习,三连

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
代谢组数据分析在代谢组研究中起着重要的作用,Python是一个功能强大的编程语言,也被广泛应用于代谢组数据分析。在Python中,有许多用于代谢组数据分析的库和工具可供使用。 以下是一些常用的Python库和工具,用于代谢组数据分析: 1. Pandas:Pandas是一个用于数据分析和处理的强大库,可以轻松加载、处理和转换代谢组数据。 2. NumPy:NumPy是一个用于科计算的基础库,提供了高性能的数组操作功能,常用于代谢组数据的数值计算和统计分析。 3. SciPy:SciPy是一个开源的科计算库,提供了许多数值计算和统计分析的函数,例如聚类分析、差异分析等。 4. Scikit-learn:Scikit-learn是一个机器习库,提供了各种常用的机器习算法和工具,可以用于代谢组数据的分类、回归、聚类等分析。 5. Matplotlib 和 Seaborn:Matplotlib和Seaborn是两个常用的数据可视化库,可以用于绘制各种类型的图表,如散点图、柱状图、热图等,方便分析结果的展示。 6. MetaboAnalyst:MetaboAnalyst是一个专门用于代谢组数据分析的在线平台,提供了丰富的分析工具和功能,包括数据预处理、统计分析、通路分析等。 以上是一些常用的Python库和工具,用于代谢组数据分析。根据具体需求和研究目的,可以选择适合的工具进行数据处理、统计分析和可视化展示。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值